DatasetConsumptionConfig Klas
Vertegenwoordigen hoe u de gegevensset aan een rekendoel kunt leveren.
Vertegenwoordigen hoe u de gegevensset aan het rekendoel kunt leveren.
Constructor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parameters
| Name | Description |
|---|---|
|
name
Vereist
|
De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak. |
|
dataset
Vereist
|
De gegevensset die in de uitvoering wordt gebruikt. |
|
mode
|
Definieert hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:
Default value: direct
|
|
path_on_compute
|
Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens wordt bewaard, maar mogelijk voegen we voorvoegsels toe aan deze mapstructuur om conflicten te voorkomen. Gebruik Default value: None
|
|
name
Vereist
|
De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak. |
|
dataset
Vereist
|
Dataset of
PipelineParameter of
tuple(Workspace, str) of
tuple(Workspace, str, str) of
OutputDatasetConfig
De gegevensset die moet worden geleverd, als een gegevenssetobject, pijplijnparameter die een gegevensset, een tuple van (werkruimte, naam van gegevensset) of een tuple van (werkruimte, gegevenssetnaam, gegevenssetversie) opneemt. Als er alleen een naam wordt opgegeven, gebruikt datasetConsumptionConfig de nieuwste versie van de gegevensset. |
|
mode
Vereist
|
Definieert hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:
|
|
path_on_compute
Vereist
|
Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens wordt bewaard, maar mogelijk voegen we voorvoegsels toe aan deze mapstructuur om conflicten te voorkomen. U wordt aangeraden tabular_dataset.to_path aan te roepen om de structuur van de uitvoermap te zien. |
Methoden
| as_download |
Stel de modus in om te downloaden. In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
|
| as_hdfs |
Stel de modus in op HDFS. In de verzonden Synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar het lokale pad op het rekendoel. Het hdfs-pad kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.
|
| as_mount |
Stel de modus in om te koppelen. In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
|
as_download
Stel de modus in om te downloaden.
In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parameters
| Name | Description |
|---|---|
|
path_on_compute
|
Het doelpad op de berekening om de gegevens beschikbaar te maken op. Default value: None
|
Opmerkingen
Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is de downloadlocatie het pad van het enkele gedownloade bestand. Anders is de downloadlocatie het pad van de ingesloten map voor alle gedownloade bestanden.
Als path_on_compute begint met een /, wordt het beschouwd als een absoluut pad. Als het niet begint met een /, wordt het beschouwd als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak gemachtigd is om naar die map te schrijven.
as_hdfs
Stel de modus in op HDFS.
In de verzonden Synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar het lokale pad op het rekendoel. Het hdfs-pad kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Opmerkingen
Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, wordt het hdfs-pad van het ene bestand. Anders is het hdfs-pad het pad van de ingesloten map voor alle gekoppelde bestanden.
as_mount
Stel de modus in om te koppelen.
In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parameters
| Name | Description |
|---|---|
|
path_on_compute
|
Het doelpad op de berekening om de gegevens beschikbaar te maken op. Default value: None
|
Opmerkingen
Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is het koppelpunt het pad van het gekoppelde bestand. Anders is het koppelpunt het pad van de ingesloten map voor alle gekoppelde bestanden.
Als path_on_compute begint met een /, wordt het beschouwd als een absoluut pad. Als het niet begint met een /, wordt het beschouwd als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak gemachtigd is om naar die map te schrijven.
Kenmerken
name
Naam van de invoer.
Retouren
| Type | Description |
|---|---|
|
Naam van de invoer. |