OutputTabularDatasetConfig Klasse
Stellt dar, wie die Ausgabe einer Ausführung kopiert und als TabularDataset höhergestuft wird.
Initialisieren sie eine OutputTabularDatasetConfig.
Konstruktor
OutputTabularDatasetConfig(**kwargs)
Hinweise
Sie sollten diesen Konstruktor nicht direkt aufrufen, sondern stattdessen eine OutputFileDatasetConfig erstellen und dann die entsprechenden read_*-Methoden aufrufen, um ihn in eine OutputTabularDatasetConfig zu konvertieren.
Die Art und Weise, wie die Ausgabe in das Ziel für eine OutputTabularDatasetConfig kopiert wird, ist identisch mit einer OutputFileDatasetConfig. Der Unterschied zwischen ihnen besteht darin, dass das erstellte Dataset ein TabularDataset ist, das alle angegebenen Transformationen enthält.
Methoden
| as_input |
Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll. |
| as_mount |
Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll. Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird. |
| as_upload |
Legen Sie den Modus der hochzuladenden Ausgabe fest. Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen. |
| drop_columns |
Legen Sie die angegebenen Spalten aus dem Dataset ab. |
| keep_columns |
Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab. |
| random_split |
Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz. Die resultierenden Ausgabekonfigurationen haben ihre Namen geändert, der erste wird _1 an den Namen angefügt, und der zweite wird _2 an den Namen angefügt. Wenn ein Namenskonflikt verursacht wird oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen bitte manuell fest. |
as_input
Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.
as_input(name=None)
Parameter
| Name | Beschreibung |
|---|---|
|
name
Erforderlich
|
Der Name der Eingabe, die für die Ausführung spezifisch ist. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Eine DatasetConsumptionConfig Instanz, die beschreibt, wie die Eingabedaten geliefert werden. |
as_mount
Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll.
Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird.
as_mount()
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Eine OutputTabularDatasetConfig Instanz mit aktiviertem Modus. |
as_upload
Legen Sie den Modus der hochzuladenden Ausgabe fest.
Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.
as_upload(overwrite=False, source_globs=None)
Parameter
| Name | Beschreibung |
|---|---|
|
overwrite
Erforderlich
|
Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind. |
|
source_globs
Erforderlich
|
Glob-Muster zum Filtern von Dateien, die hochgeladen werden. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Eine OutputTabularDatasetConfig Instanz, für die der Modus zum Hochladen festgelegt ist. |
drop_columns
Legen Sie die angegebenen Spalten aus dem Dataset ab.
drop_columns(columns)
Parameter
| Name | Beschreibung |
|---|---|
|
columns
Erforderlich
|
Der Name oder eine Liste mit Namen für die spalten, die gelöscht werden sollen. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Eine OutputTabularDatasetConfig Instanz, mit der Spalten abzulegen sind. |
keep_columns
Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.
keep_columns(columns)
Parameter
| Name | Beschreibung |
|---|---|
|
columns
Erforderlich
|
Der Name oder eine Liste mit Namen für die spalten, die beibehalten werden sollen. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Eine OutputTabularDatasetConfig Instanz, mit der Spalten beibehalten werden sollen. |
random_split
Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.
Die resultierenden Ausgabekonfigurationen haben ihre Namen geändert, der erste wird _1 an den Namen angefügt, und der zweite wird _2 an den Namen angefügt. Wenn ein Namenskonflikt verursacht wird oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen bitte manuell fest.
random_split(percentage, seed=None)
Parameter
| Name | Beschreibung |
|---|---|
|
percentage
Erforderlich
|
Der ungefähre Prozentsatz, um das Dataset aufzuteilen nach. Dies muss eine Zahl zwischen 0,0 und 1,0 sein. |
|
seed
Erforderlich
|
Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll. |
Gibt zurück
| Typ | Beschreibung |
|---|---|
|
Gibt ein Tupel von zwei OutputTabularDatasetConfig -Objekten zurück, die die beiden Datasets nach der Aufteilung darstellen. |