共用方式為


OutputTabularDatasetConfig 類別

表示如何複製執行的輸出,並升級為 TabularDataset。

初始化 OutputTabularDatasetConfig。

建構函式

OutputTabularDatasetConfig(**kwargs)

備註

您不應該直接呼叫這個建構函式,而是應該建立 OutputFileDatasetConfig,然後呼叫對應的 read_* 方法,將它轉換成 OutputTabularDatasetConfig。

輸出將複製到 OutputTabularDatasetConfig 目的地的方式與 OutputFileDatasetConfig 相同。 它們之間的差異在於建立的數據集將是包含所有指定轉換的 TabularDataset。

方法

as_input

指定如何在後續管線步驟中使用輸出做為輸入。

as_mount

設定要掛接的輸出模式。

針對掛接模式,輸出目錄將會是 FUSE 掛接的目錄。 當檔案關閉時,會上傳寫入掛接目錄的檔案。

as_upload

設定要上傳的輸出模式。

針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。

drop_columns

從數據集卸除指定的數據行。

keep_columns

保留指定的數據行,並從數據集卸除所有其他數據行。

random_split

將數據集中的記錄隨機分割成兩個部分,大約由指定的百分比來分割。

產生的輸出組態會變更其名稱,第一個組態會將 _1 附加至名稱,而第二個則會將 _2 附加至名稱。 如果會導致名稱衝突,或您想要指定自定義名稱,請手動設定其名稱。

as_input

指定如何在後續管線步驟中使用輸出做為輸入。

as_input(name=None)

參數

名稱 Description
name
必要
str

執行特定的輸入名稱。

傳回

類型 Description

DatasetConsumptionConfig實例,描述如何傳遞輸入數據。

as_mount

設定要掛接的輸出模式。

針對掛接模式,輸出目錄將會是 FUSE 掛接的目錄。 當檔案關閉時,會上傳寫入掛接目錄的檔案。

as_mount()

傳回

類型 Description

OutputTabularDatasetConfig設定為掛接模式的實例。

as_upload

設定要上傳的輸出模式。

針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。

as_upload(overwrite=False, source_globs=None)

參數

名稱 Description
overwrite
必要

是否要覆寫目的地中已經存在的檔案。

source_globs
必要

用來篩選要上傳的檔案的 Glob 模式。

傳回

類型 Description

OutputTabularDatasetConfig設定為上傳模式的 實例。

drop_columns

從數據集卸除指定的數據行。

drop_columns(columns)

參數

名稱 Description
columns
必要

要卸除之數據行的名稱或名稱清單。

傳回

類型 Description

OutputTabularDatasetConfig 卸除數據行的 實例。

keep_columns

保留指定的數據行,並從數據集卸除所有其他數據行。

keep_columns(columns)

參數

名稱 Description
columns
必要

要保留之數據行的名稱或名稱清單。

傳回

類型 Description

OutputTabularDatasetConfig 保留數據行的 實例。

random_split

將數據集中的記錄隨機分割成兩個部分,大約由指定的百分比來分割。

產生的輸出組態會變更其名稱,第一個組態會將 _1 附加至名稱,而第二個則會將 _2 附加至名稱。 如果會導致名稱衝突,或您想要指定自定義名稱,請手動設定其名稱。

random_split(percentage, seed=None)

參數

名稱 Description
percentage
必要

要分割數據集的近似百分比。 這必須是介於 0.0 和 1.0 之間的數位。

seed
必要
int

要用於隨機產生器的選擇性種子。

傳回

類型 Description

會傳回兩個 OutputTabularDatasetConfig 物件的 Tuple,代表分割後的兩個數據集。