OutputTabularDatasetConfig 類別

表示如何複製執行的輸出，並升級為 TabularDataset。

初始化 OutputTabularDatasetConfig。

建構函式

OutputTabularDatasetConfig(**kwargs)

備註

您不應該直接呼叫這個建構函式，而是應該建立 OutputFileDatasetConfig，然後呼叫對應的 read_* 方法，將它轉換成 OutputTabularDatasetConfig。

輸出將複製到 OutputTabularDatasetConfig 目的地的方式與 OutputFileDatasetConfig 相同。它們之間的差異在於建立的數據集將是包含所有指定轉換的 TabularDataset。

方法

as_input	指定如何在後續管線步驟中使用輸出做為輸入。
as_mount	設定要掛接的輸出模式。針對掛接模式，輸出目錄將會是 FUSE 掛接的目錄。當檔案關閉時，會上傳寫入掛接目錄的檔案。
as_upload	設定要上傳的輸出模式。針對上傳模式，寫入輸出目錄的檔案將會在作業結束時上傳。如果作業失敗或取消，則不會上傳輸出目錄。
drop_columns	從數據集卸除指定的數據行。
keep_columns	保留指定的數據行，並從數據集卸除所有其他數據行。
random_split	將數據集中的記錄隨機分割成兩個部分，大約由指定的百分比來分割。產生的輸出組態會變更其名稱，第一個組態會將 _1 附加至名稱，而第二個則會將 _2 附加至名稱。如果會導致名稱衝突，或您想要指定自定義名稱，請手動設定其名稱。

as_input

指定如何在後續管線步驟中使用輸出做為輸入。

as_input(name=None)

參數

名稱	Description
name 必要	str 執行特定的輸入名稱。

傳回

類型	Description
DatasetConsumptionConfig	DatasetConsumptionConfig實例，描述如何傳遞輸入數據。

as_mount

設定要掛接的輸出模式。

針對掛接模式，輸出目錄將會是 FUSE 掛接的目錄。當檔案關閉時，會上傳寫入掛接目錄的檔案。

as_mount()

傳回

類型	Description
OutputTabularDatasetConfig	OutputTabularDatasetConfig設定為掛接模式的實例。

as_upload

設定要上傳的輸出模式。

針對上傳模式，寫入輸出目錄的檔案將會在作業結束時上傳。如果作業失敗或取消，則不會上傳輸出目錄。

as_upload(overwrite=False, source_globs=None)

參數

名稱	Description
overwrite 必要	bool 是否要覆寫目的地中已經存在的檔案。
source_globs 必要	list[str] 用來篩選要上傳的檔案的 Glob 模式。

傳回

類型	Description
OutputTabularDatasetConfig	OutputTabularDatasetConfig設定為上傳模式的實例。

drop_columns

從數據集卸除指定的數據行。

drop_columns(columns)

參數

名稱	Description
columns 必要	Union[str, list[str]] 要卸除之數據行的名稱或名稱清單。

傳回

類型	Description
PipelineOutputTabularDataset	要 OutputTabularDatasetConfig 卸除數據行的實例。

keep_columns

保留指定的數據行，並從數據集卸除所有其他數據行。

keep_columns(columns)

參數

名稱	Description
columns 必要	Union[str, list[str]] 要保留之數據行的名稱或名稱清單。

傳回

類型	Description
PipelineOutputTabularDataset	要 OutputTabularDatasetConfig 保留數據行的實例。

random_split

將數據集中的記錄隨機分割成兩個部分，大約由指定的百分比來分割。

產生的輸出組態會變更其名稱，第一個組態會將 _1 附加至名稱，而第二個則會將 _2 附加至名稱。如果會導致名稱衝突，或您想要指定自定義名稱，請手動設定其名稱。

random_split(percentage, seed=None)

參數

名稱	Description
percentage 必要	float 要分割數據集的近似百分比。這必須是介於 0.0 和 1.0 之間的數位。
seed 必要	int 要用於隨機產生器的選擇性種子。

傳回

類型	Description
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	會傳回兩個 OutputTabularDatasetConfig 物件的 Tuple，代表分割後的兩個數據集。

意見反應

此頁面對您有幫助嗎？