OutputTabularDatasetConfig Klasse

Stellt dar, wie die Ausgabe einer Ausführung kopiert und als TabularDataset höhergestuft wird.

Initialisieren sie eine OutputTabularDatasetConfig.

Konstruktor

OutputTabularDatasetConfig(**kwargs)

Hinweise

Sie sollten diesen Konstruktor nicht direkt aufrufen, sondern stattdessen eine OutputFileDatasetConfig erstellen und dann die entsprechenden read_*-Methoden aufrufen, um ihn in eine OutputTabularDatasetConfig zu konvertieren.

Die Art und Weise, wie die Ausgabe in das Ziel für eine OutputTabularDatasetConfig kopiert wird, ist identisch mit einer OutputFileDatasetConfig. Der Unterschied zwischen ihnen besteht darin, dass das erstellte Dataset ein TabularDataset ist, das alle angegebenen Transformationen enthält.

Methoden

as_input	Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.
as_mount	Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll. Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird.
as_upload	Legen Sie den Modus der hochzuladenden Ausgabe fest. Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.
drop_columns	Legen Sie die angegebenen Spalten aus dem Dataset ab.
keep_columns	Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.
random_split	Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz. Die resultierenden Ausgabekonfigurationen haben ihre Namen geändert, der erste wird _1 an den Namen angefügt, und der zweite wird _2 an den Namen angefügt. Wenn ein Namenskonflikt verursacht wird oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen bitte manuell fest.

as_input

Geben Sie an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_input(name=None)

Parameter

Name	Beschreibung
name Erforderlich	str Der Name der Eingabe, die für die Ausführung spezifisch ist.

Gibt zurück

Typ	Beschreibung
DatasetConsumptionConfig	Eine DatasetConsumptionConfig Instanz, die beschreibt, wie die Eingabedaten geliefert werden.

as_mount

Legen Sie den Ausgabemodus fest, der bereitgestellt werden soll.

Für den Bereitstellungsmodus ist das Ausgabeverzeichnis ein bereitgestelltes FUSE-Verzeichnis. Dateien, die in das bereitgestellte Verzeichnis geschrieben wurden, werden hochgeladen, wenn die Datei geschlossen wird.

as_mount()

Gibt zurück

Typ	Beschreibung
OutputTabularDatasetConfig	Eine OutputTabularDatasetConfig Instanz mit aktiviertem Modus.

as_upload

Legen Sie den Modus der hochzuladenden Ausgabe fest.

Für den Uploadmodus werden Dateien, die in das Ausgabeverzeichnis geschrieben wurden, am Ende des Auftrags hochgeladen. Wenn der Auftrag fehlschlägt oder abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_upload(overwrite=False, source_globs=None)

Parameter

Name	Beschreibung
overwrite Erforderlich	bool Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind.
source_globs Erforderlich	list[str] Glob-Muster zum Filtern von Dateien, die hochgeladen werden.

Gibt zurück

Typ	Beschreibung
OutputTabularDatasetConfig	Eine OutputTabularDatasetConfig Instanz, für die der Modus zum Hochladen festgelegt ist.

drop_columns

Legen Sie die angegebenen Spalten aus dem Dataset ab.

drop_columns(columns)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste mit Namen für die spalten, die gelöscht werden sollen.

Gibt zurück

Typ	Beschreibung
PipelineOutputTabularDataset	Eine OutputTabularDatasetConfig Instanz, mit der Spalten abzulegen sind.

keep_columns

Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.

keep_columns(columns)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste mit Namen für die spalten, die beibehalten werden sollen.

Gibt zurück

Typ	Beschreibung
PipelineOutputTabularDataset	Eine OutputTabularDatasetConfig Instanz, mit der Spalten beibehalten werden sollen.

random_split

Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.

Die resultierenden Ausgabekonfigurationen haben ihre Namen geändert, der erste wird _1 an den Namen angefügt, und der zweite wird _2 an den Namen angefügt. Wenn ein Namenskonflikt verursacht wird oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen bitte manuell fest.

random_split(percentage, seed=None)

Parameter

Name	Beschreibung
percentage Erforderlich	float Der ungefähre Prozentsatz, um das Dataset aufzuteilen nach. Dies muss eine Zahl zwischen 0,0 und 1,0 sein.
seed Erforderlich	int Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Typ	Beschreibung
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	Gibt ein Tupel von zwei OutputTabularDatasetConfig -Objekten zurück, die die beiden Datasets nach der Aufteilung darstellen.

Feedback

War diese Seite hilfreich?

Freigeben über

OutputTabularDatasetConfig Klasse

Konstruktor

Hinweise

Methoden

as_input

Parameter

Gibt zurück

as_mount

Gibt zurück

as_upload

Parameter

Gibt zurück

drop_columns

Parameter

Gibt zurück

keep_columns

Parameter

Gibt zurück

random_split

Parameter

Gibt zurück

Feedback