Freigeben über


OutputTabularDatasetConfig Klasse

Stellt dar, wie die Ausgabe einer Ausführung kopiert und als TabularDataset höhergestuft wird.

Initialisieren sie eine OutputTabularDatasetConfig.

Konstruktor

OutputTabularDatasetConfig(**kwargs)

Hinweise

Sie sollten diesen Konstruktor nicht direkt aufrufen, sondern stattdessen eine OutputFileDatasetConfig erstellen und dann die entsprechenden read_*-Methoden aufrufen, um ihn in eine OutputTabularDatasetConfig zu konvertieren.

Die Art und Weise, wie die Ausgabe in das Ziel für eine OutputTabularDatasetConfig kopiert wird, ist identisch mit einer OutputFileDatasetConfig. Der Unterschied zwischen ihnen besteht darin, dass das erstellte Dataset ein TabularDataset ist, das alle angegebenen Transformationen enthält.

Methoden

as_input

Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_mount

Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll.

Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird.

as_upload

Legen Sie den Modus der hochzuladenden Ausgabe fest.

Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

drop_columns

Legen Sie die angegebenen Spalten aus dem Dataset ab.

keep_columns

Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.

random_split

Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.

Die resultierenden Ausgabekonfigurationen haben ihre Namen geändert, der erste wird _1 an den Namen angefügt, und der zweite wird _2 an den Namen angefügt. Wenn ein Namenskonflikt verursacht wird oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen bitte manuell fest.

as_input

Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_input(name=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name der Eingabe, die für die Ausführung spezifisch ist.

Gibt zurück

Typ Beschreibung

Eine DatasetConsumptionConfig Instanz, die beschreibt, wie die Eingabedaten geliefert werden.

as_mount

Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll.

Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird.

as_mount()

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig Instanz mit aktiviertem Modus.

as_upload

Legen Sie den Modus der hochzuladenden Ausgabe fest.

Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_upload(overwrite=False, source_globs=None)

Parameter

Name Beschreibung
overwrite
Erforderlich

Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind.

source_globs
Erforderlich

Glob-Muster zum Filtern von Dateien, die hochgeladen werden.

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig Instanz, für die der Modus zum Hochladen festgelegt ist.

drop_columns

Legen Sie die angegebenen Spalten aus dem Dataset ab.

drop_columns(columns)

Parameter

Name Beschreibung
columns
Erforderlich

Der Name oder eine Liste mit Namen für die spalten, die gelöscht werden sollen.

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig Instanz, mit der Spalten abzulegen sind.

keep_columns

Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.

keep_columns(columns)

Parameter

Name Beschreibung
columns
Erforderlich

Der Name oder eine Liste mit Namen für die spalten, die beibehalten werden sollen.

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig Instanz, mit der Spalten beibehalten werden sollen.

random_split

Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.

Die resultierenden Ausgabekonfigurationen haben ihre Namen geändert, der erste wird _1 an den Namen angefügt, und der zweite wird _2 an den Namen angefügt. Wenn ein Namenskonflikt verursacht wird oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen bitte manuell fest.

random_split(percentage, seed=None)

Parameter

Name Beschreibung
percentage
Erforderlich

Der ungefähre Prozentsatz, um das Dataset aufzuteilen nach. Dies muss eine Zahl zwischen 0,0 und 1,0 sein.

seed
Erforderlich
int

Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Typ Beschreibung

Gibt ein Tupel von zwei OutputTabularDatasetConfig -Objekten zurück, die die beiden Datasets nach der Aufteilung darstellen.