DatasetConsumptionConfig Klas

Vertegenwoordigen hoe u de gegevensset aan een rekendoel kunt leveren.

Vertegenwoordigen hoe u de gegevensset aan het rekendoel kunt leveren.

Constructor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parameters

Name	Description
name Vereist	str De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.
dataset Vereist	AbstractDataset of PipelineParameter of OutputDatasetConfig De gegevensset die in de uitvoering wordt gebruikt.
mode	str Definieert hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi: 'direct': de gegevensset gebruiken als gegevensset. 'downloaden': download de gegevensset en verbruik de gegevensset als gedownload pad. 'koppelen': koppel de gegevensset en verbruik de gegevensset als koppelpad. 'hdfs': verbruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute). Default value: direct
path_on_compute	str Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens wordt bewaard, maar mogelijk voegen we voorvoegsels toe aan deze mapstructuur om conflicten te voorkomen. Gebruik `tabular_dataset.to_path` deze indeling om de structuur van de uitvoermap weer te geven. Default value: None
name Vereist	str De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.
dataset Vereist	Dataset of PipelineParameter of tuple(Workspace, str) of tuple(Workspace, str, str) of OutputDatasetConfig De gegevensset die moet worden geleverd, als een gegevenssetobject, pijplijnparameter die een gegevensset, een tuple van (werkruimte, naam van gegevensset) of een tuple van (werkruimte, gegevenssetnaam, gegevenssetversie) opneemt. Als er alleen een naam wordt opgegeven, gebruikt datasetConsumptionConfig de nieuwste versie van de gegevensset.
mode Vereist	str Definieert hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi: 'direct': de gegevensset gebruiken als gegevensset. 'downloaden': download de gegevensset en verbruik de gegevensset als gedownload pad. 'koppelen': koppel de gegevensset en verbruik de gegevensset als koppelpad. 'hdfs': verbruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute).
path_on_compute Vereist	str Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens wordt bewaard, maar mogelijk voegen we voorvoegsels toe aan deze mapstructuur om conflicten te voorkomen. U wordt aangeraden tabular_dataset.to_path aan te roepen om de structuur van de uitvoermap te zien.

Methoden

as_download

Stel de modus in om te downloaden.

In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Stel de modus in op HDFS.

In de verzonden Synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar het lokale pad op het rekendoel. Het hdfs-pad kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Stel de modus in om te koppelen.

In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Stel de modus in om te downloaden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parameters

Name	Description
path_on_compute	str Het doelpad op de berekening om de gegevens beschikbaar te maken op. Default value: None

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is de downloadlocatie het pad van het enkele gedownloade bestand. Anders is de downloadlocatie het pad van de ingesloten map voor alle gedownloade bestanden.

Als path_on_compute begint met een /, wordt het beschouwd als een absoluut pad. Als het niet begint met een /, wordt het beschouwd als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak gemachtigd is om naar die map te schrijven.

as_hdfs

Stel de modus in op HDFS.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, wordt het hdfs-pad van het ene bestand. Anders is het hdfs-pad het pad van de ingesloten map voor alle gekoppelde bestanden.

as_mount

Stel de modus in om te koppelen.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parameters

Name	Description
path_on_compute	str Het doelpad op de berekening om de gegevens beschikbaar te maken op. Default value: None

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is het koppelpunt het pad van het gekoppelde bestand. Anders is het koppelpunt het pad van de ingesloten map voor alle gekoppelde bestanden.

Kenmerken

name

Naam van de invoer.

Retouren

Type	Description
	Naam van de invoer.

Feedback

Is deze pagina nuttig?

Delen via

DatasetConsumptionConfig Klas

Constructor

Parameters

Methoden

as_download

Parameters

Opmerkingen

as_hdfs

Opmerkingen

as_mount

Parameters

Opmerkingen

Kenmerken

name

Retouren

Feedback