Delen via


DatasetConsumptionConfig Klas

Vertegenwoordigen hoe u de gegevensset aan een rekendoel kunt leveren.

Vertegenwoordigen hoe u de gegevensset aan het rekendoel kunt leveren.

Constructor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parameters

Name Description
name
Vereist
str

De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.

dataset
Vereist

De gegevensset die in de uitvoering wordt gebruikt.

mode
str

Definieert hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:

  1. 'direct': de gegevensset gebruiken als gegevensset.
  2. 'downloaden': download de gegevensset en verbruik de gegevensset als gedownload pad.
  3. 'koppelen': koppel de gegevensset en verbruik de gegevensset als koppelpad.
  4. 'hdfs': verbruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute).
Default value: direct
path_on_compute
str

Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens wordt bewaard, maar mogelijk voegen we voorvoegsels toe aan deze mapstructuur om conflicten te voorkomen. Gebruik tabular_dataset.to_path deze indeling om de structuur van de uitvoermap weer te geven.

Default value: None
name
Vereist
str

De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.

dataset
Vereist

De gegevensset die moet worden geleverd, als een gegevenssetobject, pijplijnparameter die een gegevensset, een tuple van (werkruimte, naam van gegevensset) of een tuple van (werkruimte, gegevenssetnaam, gegevenssetversie) opneemt. Als er alleen een naam wordt opgegeven, gebruikt datasetConsumptionConfig de nieuwste versie van de gegevensset.

mode
Vereist
str

Definieert hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:

  1. 'direct': de gegevensset gebruiken als gegevensset.
  2. 'downloaden': download de gegevensset en verbruik de gegevensset als gedownload pad.
  3. 'koppelen': koppel de gegevensset en verbruik de gegevensset als koppelpad.
  4. 'hdfs': verbruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute).
path_on_compute
Vereist
str

Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens wordt bewaard, maar mogelijk voegen we voorvoegsels toe aan deze mapstructuur om conflicten te voorkomen. U wordt aangeraden tabular_dataset.to_path aan te roepen om de structuur van de uitvoermap te zien.

Methoden

as_download

Stel de modus in om te downloaden.

In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Stel de modus in op HDFS.

In de verzonden Synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar het lokale pad op het rekendoel. Het hdfs-pad kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Stel de modus in om te koppelen.

In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Stel de modus in om te downloaden.

In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parameters

Name Description
path_on_compute
str

Het doelpad op de berekening om de gegevens beschikbaar te maken op.

Default value: None

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is de downloadlocatie het pad van het enkele gedownloade bestand. Anders is de downloadlocatie het pad van de ingesloten map voor alle gedownloade bestanden.

Als path_on_compute begint met een /, wordt het beschouwd als een absoluut pad. Als het niet begint met een /, wordt het beschouwd als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak gemachtigd is om naar die map te schrijven.

as_hdfs

Stel de modus in op HDFS.

In de verzonden Synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar het lokale pad op het rekendoel. Het hdfs-pad kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, wordt het hdfs-pad van het ene bestand. Anders is het hdfs-pad het pad van de ingesloten map voor alle gekoppelde bestanden.

as_mount

Stel de modus in om te koppelen.

In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parameters

Name Description
path_on_compute
str

Het doelpad op de berekening om de gegevens beschikbaar te maken op.

Default value: None

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is het koppelpunt het pad van het gekoppelde bestand. Anders is het koppelpunt het pad van de ingesloten map voor alle gekoppelde bestanden.

Als path_on_compute begint met een /, wordt het beschouwd als een absoluut pad. Als het niet begint met een /, wordt het beschouwd als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak gemachtigd is om naar die map te schrijven.

Kenmerken

name

Naam van de invoer.

Retouren

Type Description

Naam van de invoer.