Freigeben über


OutputFileDatasetConfig Klasse

Stellt dar, wie die Ausgabe einer Ausführung kopiert und als FileDataset höhergestuft wird.

Mit Der OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad für das Computeziel in das angegebene Ziel hochgeladen werden soll. Wenn keine Argumente an den Konstruktor übergeben werden, generieren wir automatisch einen Namen, ein Ziel und einen lokalen Pfad.

Beispiel für das Übergeben von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ein Beispiel für die Erstellung einer Ausgabe, die dann die Ausgabe in ein tabellarisches Dataset angibt und sie mit dem Namen foo registriert:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren sie eine OutputFileDatasetConfig.

Mit Der OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad für das Computeziel in das angegebene Ziel hochgeladen werden soll. Wenn keine Argumente an den Konstruktor übergeben werden, generieren wir automatisch einen Namen, ein Ziel und einen lokalen Pfad.

Beispiel für das Übergeben von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ein Beispiel für die Erstellung einer Ausgabe, die dann die Ausgabe in ein tabellarisches Dataset angibt und sie mit dem Namen foo registriert:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name der Ausgabe, die für diese Ausführung spezifisch ist. Dies wird in der Regel für Linienzwecke verwendet. Wenn "Keine" festgelegt ist, wird automatisch ein Name generiert. Der Name wird auch zu einer Umgebungsvariable, die den lokalen Pfad enthält, in den Sie Ihre Ausgabedateien und Ordner schreiben können, in die das Ziel hochgeladen wird.

destination
Erforderlich

Das Ziel, in das die Ausgabe kopiert werden soll. Wenn dieser Wert auf "None" festgelegt ist, kopieren wir die Ausgabe in den Workspaceblobstore-Datenspeicher unter dem Pfad "/dataset/{run-id}/{output-name}", wobei "run-id " die ID "Run" ist und der Ausgabename der Ausgabename des obigen Namensparameters ist. Das Ziel ist ein Tupel, bei dem das erste Element der Datenspeicher ist und das zweite Element der Pfad innerhalb des Datenspeichers ist, in den die Daten kopiert werden sollen.

Der Pfad innerhalb des Datenspeichers kann ein Vorlagenpfad sein. Ein Vorlagenpfad ist nur ein normaler Pfad, aber mit Platzhaltern innerhalb. Diese Platzhalter werden dann zur entsprechenden Zeit aufgelöst. Die Syntax für Platzhalter lautet {placeholder}, z. B. "/path/with/{placeholder}". Derzeit werden nur zwei Platzhalter unterstützt, {run-id} und {output-name}.

source
Erforderlich
str

Der Pfad innerhalb des Computeziels, aus dem die Daten kopiert werden sollen. Bei Festlegung auf "Keine" wird dies auf ein Verzeichnis festgelegt, das wir innerhalb des temporären Betriebssystemverzeichnisses des Computeziels erstellen.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „Keine“. Die Partitionsinformationen der einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Der Formatteil "{column_name}" erstellt Zeichenfolgenspalte, und "{column_name:jjjj/MM/TT/HH/mm/ss}" erstellt datumstime-Spalte, wobei "yyyyy", "MM", "dd", "HH", "mm" und "ss" verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den Datetime-Typ zu extrahieren. Das Format sollte von der Position des ersten Partitionsschlüssels bis zum Ende des Dateipfads beginnen. Geben Sie z. B. den Pfad ".. /Accounts/2019/01/01/data.parkett", wobei die Partition nach Abteilungsname und -uhrzeit ist, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.laminat' erstellt eine Zeichenfolgenspalte "Abteilung" mit dem Wert "Accounts" und einer Datetime-Spalte "PartitionDate" mit dem Wert "2019-01-01".

name
Erforderlich
str

Der Name der Ausgabe, die für diese Ausführung spezifisch ist. Dies wird in der Regel für Linienzwecke verwendet. Wenn "Keine" festgelegt ist, wird automatisch ein Name generiert. Der Name wird auch zu einer Umgebungsvariable, die den lokalen Pfad enthält, in den Sie Ihre Ausgabedateien und Ordner schreiben können, in die das Ziel hochgeladen wird.

destination
Erforderlich

Das Ziel, in das die Ausgabe kopiert werden soll. Wenn dieser Wert auf "None" festgelegt ist, kopieren wir die Ausgabe in den Workspaceblobstore-Datenspeicher unter dem Pfad "/dataset/{run-id}/{output-name}", wobei "run-id " die ID "Run" ist und der Ausgabename der Ausgabename des obigen Namensparameters ist. Das Ziel ist ein Tupel, bei dem das erste Element der Datenspeicher ist und das zweite Element der Pfad innerhalb des Datenspeichers ist, in den die Daten kopiert werden sollen.

Der Pfad innerhalb des Datenspeichers kann ein Vorlagenpfad sein. Ein Vorlagenpfad ist nur ein normaler Pfad, aber mit Platzhaltern innerhalb. Diese Platzhalter werden dann zur entsprechenden Zeit aufgelöst. Die Syntax für Platzhalter lautet {placeholder}, z. B. "/path/with/{placeholder}". Derzeit werden nur zwei Platzhalter unterstützt, {run-id} und {output-name}.

source
Erforderlich
str

Der Pfad innerhalb des Computeziels, aus dem die Daten kopiert werden sollen. Bei Festlegung auf "Keine" wird dies auf ein Verzeichnis festgelegt, das wir innerhalb des temporären Betriebssystemverzeichnisses des Computeziels erstellen.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „Keine“. Die Partitionsinformationen der einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Der Formatteil "{column_name}" erstellt Zeichenfolgenspalte, und "{column_name:jjjj/MM/TT/HH/mm/ss}" erstellt datumstime-Spalte, wobei "yyyyy", "MM", "dd", "HH", "mm" und "ss" verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den Datetime-Typ zu extrahieren. Das Format sollte von der Position des ersten Partitionsschlüssels bis zum Ende des Dateipfads beginnen. Geben Sie z. B. den Pfad ".. /Accounts/2019/01/01/data.parkett", wobei die Partition nach Abteilungsname und -uhrzeit ist, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.laminat' erstellt eine Zeichenfolgenspalte "Abteilung" mit dem Wert "Accounts" und einer Datetime-Spalte "PartitionDate" mit dem Wert "2019-01-01".

Hinweise

Sie können die OutputFileDatasetConfig als Argument an Ihre Ausführung übergeben, und sie wird automatisch in den lokalen Pfad auf der Berechnung übersetzt. Das Quellargument wird verwendet, wenn eins angegeben ist, andernfalls generieren wir automatisch ein Verzeichnis im temporären Ordner des Betriebssystems. Die Dateien und Ordner im Quellverzeichnis werden dann basierend auf der Ausgabekonfiguration in das Ziel kopiert.

Standardmäßig wird der Modus, in den die Ausgabe in den Zielspeicher kopiert wird, auf die Bereitstellung festgelegt. Weitere Informationen zum Bereitstellungsmodus finden Sie in der Dokumentation zu as_mount.

Methoden

as_input

Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_mount

Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll.

Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird.

as_upload

Legen Sie den Modus der hochzuladenden Ausgabe fest.

Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_input

Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_input(name=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name der Eingabe, die für die Ausführung spezifisch ist.

Gibt zurück

Typ Beschreibung

Eine DatasetConsumptionConfig Instanz, die beschreibt, wie die Eingabedaten geliefert werden.

as_mount

Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll.

Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird.

as_mount(disable_metadata_cache=False)

Parameter

Name Beschreibung
disable_metadata_cache
Erforderlich

Gibt an, ob Metadaten im lokalen Knoten zwischengespeichert werden sollen, wenn ein Knoten deaktiviert ist, während der Ausführung des Auftrags keine Dateien sehen können, die von anderen Knoten generiert wurden.

Gibt zurück

Typ Beschreibung

Eine OutputFileDatasetConfig Instanz mit aktiviertem Modus.

as_upload

Legen Sie den Modus der hochzuladenden Ausgabe fest.

Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_upload(overwrite=False, source_globs=None)

Parameter

Name Beschreibung
overwrite
Erforderlich

Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind.

source_globs
Erforderlich

Glob-Muster zum Filtern von Dateien, die hochgeladen werden.

Gibt zurück

Typ Beschreibung

Eine OutputFileDatasetConfig Instanz, für die der Modus zum Hochladen festgelegt ist.