OutputTabularDatasetConfig 類別
表示如何複製執行的輸出,並升級為 TabularDataset。
初始化 OutputTabularDatasetConfig。
建構函式
OutputTabularDatasetConfig(**kwargs)
備註
您不應該直接呼叫這個建構函式,而是應該建立 OutputFileDatasetConfig,然後呼叫對應的 read_* 方法,將它轉換成 OutputTabularDatasetConfig。
輸出將複製到 OutputTabularDatasetConfig 目的地的方式與 OutputFileDatasetConfig 相同。 它們之間的差異在於建立的數據集將是包含所有指定轉換的 TabularDataset。
方法
| as_input |
指定如何在後續管線步驟中使用輸出做為輸入。 |
| as_mount |
設定要掛接的輸出模式。 針對掛接模式,輸出目錄將會是 FUSE 掛接的目錄。 當檔案關閉時,會上傳寫入掛接目錄的檔案。 |
| as_upload |
設定要上傳的輸出模式。 針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。 |
| drop_columns |
從數據集卸除指定的數據行。 |
| keep_columns |
保留指定的數據行,並從數據集卸除所有其他數據行。 |
| random_split |
將數據集中的記錄隨機分割成兩個部分,大約由指定的百分比來分割。 產生的輸出組態會變更其名稱,第一個組態會將 _1 附加至名稱,而第二個則會將 _2 附加至名稱。 如果會導致名稱衝突,或您想要指定自定義名稱,請手動設定其名稱。 |
as_input
指定如何在後續管線步驟中使用輸出做為輸入。
as_input(name=None)
參數
| 名稱 | Description |
|---|---|
|
name
必要
|
執行特定的輸入名稱。 |
傳回
| 類型 | Description |
|---|---|
|
DatasetConsumptionConfig實例,描述如何傳遞輸入數據。 |
as_mount
設定要掛接的輸出模式。
針對掛接模式,輸出目錄將會是 FUSE 掛接的目錄。 當檔案關閉時,會上傳寫入掛接目錄的檔案。
as_mount()
傳回
| 類型 | Description |
|---|---|
|
OutputTabularDatasetConfig設定為掛接模式的實例。 |
as_upload
設定要上傳的輸出模式。
針對上傳模式,寫入輸出目錄的檔案將會在作業結束時上傳。 如果作業失敗或取消,則不會上傳輸出目錄。
as_upload(overwrite=False, source_globs=None)
參數
| 名稱 | Description |
|---|---|
|
overwrite
必要
|
是否要覆寫目的地中已經存在的檔案。 |
|
source_globs
必要
|
用來篩選要上傳的檔案的 Glob 模式。 |
傳回
| 類型 | Description |
|---|---|
|
OutputTabularDatasetConfig設定為上傳模式的 實例。 |
drop_columns
從數據集卸除指定的數據行。
drop_columns(columns)
參數
| 名稱 | Description |
|---|---|
|
columns
必要
|
要卸除之數據行的名稱或名稱清單。 |
傳回
| 類型 | Description |
|---|---|
|
要 OutputTabularDatasetConfig 卸除數據行的 實例。 |
keep_columns
保留指定的數據行,並從數據集卸除所有其他數據行。
keep_columns(columns)
參數
| 名稱 | Description |
|---|---|
|
columns
必要
|
要保留之數據行的名稱或名稱清單。 |
傳回
| 類型 | Description |
|---|---|
|
要 OutputTabularDatasetConfig 保留數據行的 實例。 |
random_split
將數據集中的記錄隨機分割成兩個部分,大約由指定的百分比來分割。
產生的輸出組態會變更其名稱,第一個組態會將 _1 附加至名稱,而第二個則會將 _2 附加至名稱。 如果會導致名稱衝突,或您想要指定自定義名稱,請手動設定其名稱。
random_split(percentage, seed=None)
參數
| 名稱 | Description |
|---|---|
|
percentage
必要
|
要分割數據集的近似百分比。 這必須是介於 0.0 和 1.0 之間的數位。 |
|
seed
必要
|
要用於隨機產生器的選擇性種子。 |
傳回
| 類型 | Description |
|---|---|
|
會傳回兩個 OutputTabularDatasetConfig 物件的 Tuple,代表分割後的兩個數據集。 |