Databricks (預覽版)
Databricks 提供了一個用於可擴展資料管理、治理和分析的統一平台,將簡化的工作流程與有效處理各種資料類型的能力相結合
此連接器適用於以下產品和區域:
| 服務 | Class | Regions |
|---|---|---|
| 副駕駛工作室 | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 邏輯應用程式 | 標準 | 所有 Logic Apps 區域, 但下列區域除外: - Azure Government 區域 - Azure 中國區域 - 美國國防部 (DoD) |
| Power Apps | 進階 | 除下列區域外的所有 Power Apps 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| Power Automate(自動化服務) | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 連絡人 | |
|---|---|
| 名稱 | Databricks 支援 |
| URL | https://help.databricks.com |
| eng-partner-eco-help@databricks.com |
| 連接器中繼資料 | |
|---|---|
| Publisher | Databricks 公司 |
| 網站 | https://www.databricks.com/ |
| 隱私策略 | https://www.databricks.com/legal/privacynotice |
| 類別 | 資料 |
從 Microsoft Power Platform 連線到 Databricks
本頁說明如何透過將 Databricks 新增為資料連線,從 Microsoft Power Platform 連線到 Databricks。 連線時,您可以使用下列平台的 Databricks 資料:
- Power Apps:建置可讀取和寫入 Databricks 的應用程式,同時保留您的 Databricks 治理控制項。
- Power Automate:建置流程並新增動作,以執行自訂 SQL 或現有作業並取得結果。
- Copilot Studio:使用您的 Databricks 資料作為知識來源來建置自訂代理程式。
開始之前
從 Power Platform 連線到 Databricks 之前,您必須符合下列需求:
- 您有 Databricks 工作區的個人存取權杖。
- 您有進階 Power Apps 授權。
- 您有 Databricks 帳戶。
- 您可以存取 Databricks 中的 SQL 倉儲。
步驟 1:將 Databricks 連線新增至 Power Platform
便條: 如果您使用 Copilot Studio,建議您在 Power Apps 或 Power Automate 中建立 Databricks 連線。 然後,它可以在 Copilot Studio 中使用。
若要新增 Databricks 連線,請執行下列動作:
- 在 Power Apps 或 Power Automate 中,從側邊欄點選 連線。
- 按兩下左上角的 [+ 新增連線 ]。
- 使用右上角的搜尋列搜尋 「Databricks」。
- 選取 [Databricks ] 磚 (不是 Azure Databricks)。
- 輸入您的驗證資訊。
- 針對權杖,輸入下列「持有人 <個人存取權杖>」
- 注意:若要產生個人存取權杖 (PAT), 請遵循下列步驟
- 針對權杖,輸入下列「持有人 <個人存取權杖>」
- 點擊 建立。
步驟 2:使用 Databricks 連線
在 Power Apps 或 Power Automate 中建立 Databricks 連線之後,您可以使用 Databricks 資料來建立 Power 畫布應用程式、Power Automate 流程和 Copilot Studio 代理程式。
使用 Databricks 資料來建置 Power 畫布應用程式
Important
只有在應用程式中直接連線到 Databricks 時,您才能使用畫布應用程式。 您無法使用虛擬資料表。
若要將 Databricks 資料新增至應用程式,請執行下列動作:
- 從最左邊的導覽列中,按兩下 [ 建立]。
- 按兩下 [從空白畫布開始 ],然後選取您想要的畫布大小以建立新的畫布應用程式。
- 從您的應用程式中,按一下 [新增資料>連接器]> [Databricks]。 選取您建立的 Databricks 連線。
- 從 [選擇資料集 ] 提要字段中選取目錄。
- 從 選擇資料集 側邊欄,選取您要連接畫布應用程式的所有資料表。
- 按一下 [ 連接]。
Power Apps 中的數據作業:
連接器支援建立、更新和刪除作業,但 僅 適用於已定義主索引鍵的資料表。 執行建立作業時,您必須一律指定主鍵。
便條: Databricks 支援 產生的身分識別資料行。 在此情況下,主鍵值會在建立數據列期間自動在伺服器上產生,而且無法手動指定。
使用您的 Databricks 資料來建置 Power Automate 流程
陳述式執行 API 和作業 API 會在 Power Automate 中公開,可讓您撰寫 SQL 陳述式並執行現有的作業。 若要使用 Databricks 作為動作來建立 Power Automate 流程,請執行下列動作:
- 從最左邊的導覽列中,按兩下 [ 建立]。
- 建立流程並新增任何觸發類型。
- 從您的新流程中,按一下 + 並搜尋 [Databricks] 以查看可用的動作。
若要撰寫 SQL,請選取下列其中一個動作:
執行 SQL 語句:撰寫並執行 SQL 語句。 輸入下列內容:
- 針對 Body/warehouse_id,輸入要執行 SQL 語句的倉庫 ID。
- 針對 本文/statement_id,輸入要執行的 SQL 語句的 ID。
- 如需進階參數的詳細資訊,請參閱 這裡。
檢查狀態並取得結果:檢查 SQL 語句的狀態並收集結果。 輸入下列內容:
- 針對 [語句標識符],輸入執行 SQL 語句時傳回的標識碼。
- 如需 參數的詳細資訊,請參閱 這裡。
取消陳述式的執行:終止SQL陳述式的執行。 輸入下列內容:
- 針對 [語句標識符],輸入要終止之 SQL 語句的標識碼。
- 如需 參數的詳細資訊,請參閱 這裡。
透過區塊索引取得結果:透過區塊索引取得結果,適用於大型結果集。 輸入下列內容:
- 針對 [語句標識符],輸入您要擷取其結果的 SQL 語句識別碼。
- 針對 [區塊索引],輸入目標區塊索引。
- 如需參數的詳細資訊,請參閱 這裡。
若要與現有的 Databricks 作業互動,請選取下列其中一個動作:
- 列出工作:擷取工作清單。 有關更多信息,請參閱 此處。
- 觸發新的工作執行:執行工作並傳回觸發執行的run_id。 有關更多信息,請參閱 此處。
- 取得單一工作執行:傳回有關執行的中繼資料,包括執行狀態(例如,執行中、成功、失敗)、開始和結束時間、執行持續時間、叢集資訊等。有關更多信息,請參閱 此處。
- 取消工作執行:取消工作執行或工作執行。 如需詳細資訊,請參閱此處。
- 取得單一工作執行的輸出:擷取單一工作執行的輸出和中繼資料。 如需詳細資訊,請參閱此處。
使用 Databricks 作為 Copilot Studio 中的知識來源
若要將 Databricks 資料作為知識來源新增至 Copilot Studio 代理程式,請執行下列動作:
- 從側欄中,點擊 代理。
- 按兩下 [+ 新增代理程式],選取現有的代理程式或建立新的代理程式。
- 藉由輸入訊息來描述代理程式,然後按兩下 [ 建立]。
- 或者,按一下 略過以 手動指定客服專員的資訊。
- 在 知識 標籤頁中,點擊 + 知識。
- 按一下 [進階] 。
- 選取 [Databricks] 作為知識來源。
- 輸入數據位於的目錄名稱。
- 按一下 [ 連接]。
- 選取您希望代理程式用來作為知識來源的數據表,然後按兩下 [ 新增]。
使用 Databricks 資料建立 Dataverse 虛擬資料表
您也可以使用 Databricks 連接器建立 Dataverse 虛擬資料表。 虛擬數據表,也稱為虛擬實體,整合來自外部系統的數據與 Microsoft Dataverse。 虛擬數據表會在 Dataverse 中定義數據表,而不需將實體數據表儲存在 Dataverse 資料庫中。 若要深入瞭解虛擬數據表,請參閱開始使用虛擬數據表(實體)。
注意
雖然虛擬數據表不會耗用 Dataverse 儲存容量,但 Databricks 建議您使用直接連線來提升效能。
您必須具有系統自訂工具或系統管理員角色。 如需詳細資訊,請參閱 Power Platform 的安全性角色。
請遵循下列步驟來建立 Dataverse 虛擬資料表:
在 Power Apps 中,從提要字段中,按兩下 [ 數據表]。
從功能表列單擊 [+ 新增數據表 ],然後選取 [建立虛擬數據表]。
選取現有的 Databricks 連線,或建立 Databricks 的新連線。 若要新增連線,請參閱 步驟 1:將 Databricks 連線新增至 Power Platform。
Databricks 建議使用服務主體連線來建立虛擬數據表。
按 [下一步]。
選取要作為 Dataverse 虛擬資料表的資料表。
- Dataverse 虛擬數據表需要主鍵。 因此,檢視不能是虛擬數據表,但具體化檢視可以。
按 [下一步]。
如有需要,更新資料表的詳細資訊,以配置虛擬資料表。
按 [下一步]。
確認數據源的詳細數據,然後按兩下 [ 完成]。
在 Power Apps、Power Automate 和 Copilot Studio 中使用 Dataverse 虛擬數據表。
如需 Dataverse 虛擬數據表的已知限制清單,請參閱 已知限制和疑難解答。
進行批次更新
如果您需要執行大量建立、更新或刪除作業以回應Power Apps輸入,Databricks建議實作Power Automate流程。 若要這麼做,請執行下列動作:
使用 Power Apps 中的 Databricks 連線建立畫布應用程式。
使用 Databricks 連線建立 Power Automate 流程,並使用 Power Apps 作為觸發程式。
在 Power Automate 觸發程式中,新增您想要從 Power Apps 傳遞至 Power Automate 的輸入字段。
在 Power Apps 中建立集合物件,以收集所有變更。
將 Power Automate 流程添加到您的畫布應用程式中。
從畫布應用程式呼叫 Power Automate 流程,並使用
ForAll命令依次處理集合。ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
同時寫入
資料列層級並行會 偵測資料列層級的變更,並自動解決並行寫入更新或刪除相同資料檔中不同資料列時發生的衝突,以減少並行寫入作業之間的衝突。
數據列層級並行包含在 Databricks Runtime 14.2 或更高版本中。 根據預設,下列數據表類型支援數據列層級並行:
- 已啟用刪除向量且不含分區的資料表
- 具有液體群集的數據表,除非停用刪除向量
若要啟用刪除向量,請執行下列 SQL 命令:
ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);
如需 Databricks 中並行寫入衝突的詳細資訊,請參閱 Databricks 上的隔離層級和寫入衝突。
將 Databricks 新增至資料原則
藉由將 Databricks 新增至商務資料原則,Databricks 就無法與其他群組中的連接器共用資料。 這會保護您的數據,並防止它與不應該存取它的人員共用。 如需詳細資訊,請參閱 管理數據原則。
若要將 Databricks 連接器新增至 Power Platform 資料原則:
- 從任何 Power Platform 應用程式,按下右上角的設定齒輪,然後選取 [系統管理中心]。
- 從提要欄位中,按兩下 [ 原則>數據原則]。
- 如果您使用新的系統管理中心,請按兩下 [ 安全性>數據和隱私權>數據原則]。
- 按兩下 [+ 新增原則 ],或選取現有的原則。
- 如果建立新的原則,請輸入名稱。
- 選取要新增至原則的環境,然後按下上方的 [+ 新增至原則 ]。
- 按 [下一步]。
- 搜尋並選取 Databricks* 連接器。
- 按一下 [移至商務],然後按一下 [下一步]。
- 檢閱您的原則,然後按兩下 [建立原則]。
局限性
- Power Platform 連接器不支援政府雲端。
Power App 限制
下列 PowerFx 公式只會使用本機擷取的數據來計算值:
| 類別 | Formula |
|---|---|
| 數據表函式 | - 群組依據 -分明 |
| Aggregation | - 計數列 - 標準開發P - 標準德夫 |
正在建立連線
連接器支援下列驗證類型:
| 個人存取權杖 | 個人存取令牌 | 所有區域 | 不可共享 |
| 預設值 [已棄用] | 此選項僅適用於沒有明確驗證類型的舊連線,並且僅用於回溯相容性。 | 所有區域 | 不可共享 |
個人存取令牌
驗證 ID:PAT
適用:所有地區
個人存取令牌
這不是可共用的連線。 如果 Power App 與其他使用者共用,系統會明確提示其他使用者建立新連線。
| 名稱 | 類型 | Description | 為必填項目 |
|---|---|---|---|
| API 金鑰 (格式:持有人 <個人存取權杖>) | securestring | 個人存取權杖型 API 金鑰 | 對 |
| 伺服器主機名稱 (例如:foo.cloud.databricks.com) | 字串 | Databricks 工作區的伺服器名稱 | 對 |
| HTTP 路徑 (範例:/sql/1.0/warehouses/a9c4e781bd29f315) | 字串 | Databricks SQL 倉儲的 HTTP 路徑 | 對 |
預設值 [已棄用]
適用:所有地區
此選項僅適用於沒有明確驗證類型的舊連線,並且僅用於回溯相容性。
這不是可共用的連線。 如果 Power App 與其他使用者共用,系統會明確提示其他使用者建立新連線。
| 名稱 | 類型 | Description | 為必填項目 |
|---|---|---|---|
| API 金鑰 (格式:持有人 <個人存取權杖>) | securestring | 個人存取權杖型 API 金鑰 | 對 |
| 伺服器主機名稱 (例如:foo.cloud.databricks.com) | 字串 | Databricks 工作區的伺服器名稱 | 對 |
| HTTP 路徑 (範例:/sql/1.0/warehouses/a9c4e781bd29f315) | 字串 | Databricks SQL 倉儲的 HTTP 路徑 | 對 |
節流限制
| 名稱 | 呼叫 | 續約期間 |
|---|---|---|
| 每個連線的 API 呼叫 | 100 | 60 秒 |
動作
| Databricks Genie |
查詢 Genie 空間以從您的數據中獲取見解。 |
| 依區塊索引取得結果 |
在陳述式執行成功之後,此要求可用來依索引擷取任何區塊。 |
| 列出作業 |
擷取工作清單。 |
| 取得單一作業執行 |
擷取執行的中繼資料。 結果中的大型陣列在超過 100 個元素時將被分頁。 單一執行的要求會傳回該執行的所有屬性,以及陣列屬性的前 100 個元素 (工作、job_clusters、job_parameters和repair_history)。 使用 next_page_token 欄位來檢查更多結果,並在後續請求中將其值作為page_token傳遞。 如果任何陣列屬性的元素超過 100 個,則會在後續要求中傳回其他結果。 沒有其他結果的陣列在後面的頁面上將是空的。 |
| 取得單一執行的輸出 |
擷取單一工作執行的輸出和中繼資料。 當筆記本工作透過 dbutils.notebook.exit() 呼叫傳回值時,您可以使用此端點來擷取該值。 Databricks 會將此 API 限制為傳回輸出的前 5 MB。 若要傳回較大的結果,您可以將工作結果儲存在雲端儲存服務中。 此端點會驗證 run_id 參數是否有效,如果 run_id 參數無效,則會傳回 HTTP 狀態碼 400。 執行會在 60 天後自動移除。 如果您想要參考超過 60 天的執行結果,則必須在舊的執行結果到期之前儲存它們。 |
| 取消執行 |
取消工作執行或工作執行。 執行會以非同步方式取消,因此當此要求完成時,它可能仍在執行。 |
| 取消陳述式執行 |
要求取消執行陳述式。 呼叫者必須輪詢狀態才能查看終端狀態。 |
| 執行 SQL 陳述式 |
執行 SQL 陳述式,並選擇性地等待其結果指定的時間。 |
| 檢查狀態並取得結果 |
取得報表的狀態、清單和結果 |
| 觸發新的作業執行 |
執行作業並傳回觸發執行的run_id。 |
Databricks Genie
查詢 Genie 空間以從您的數據中獲取見解。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
精靈空間 ID
|
genie_space_id | True | string |
精靈空間 ID |
依區塊索引取得結果
在陳述式執行成功之後,此要求可用來依索引擷取任何區塊。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
報表 ID
|
statement_id | True | string |
報表 ID |
|
區塊索引
|
chunk_index | True | string |
區塊索引 |
傳回
列出作業
擷取工作清單。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
限制
|
limit | integer |
要傳回的工作數目。 此值必須大於 0 且小於或等於 100。 預設值為 20。 |
|
|
展開任務
|
expand_tasks | boolean |
是否要在回應中包含任務和叢集詳細資料。 請注意,只會顯示前 100 個元素。 使用 :method:jobs/get 在所有任務和叢集之間進行分頁。 |
|
|
作業名稱
|
name | string |
清單上的篩選器,以確切 (不區分大小寫) 工作名稱為基礎。 |
|
|
頁面權杖
|
page_token | string |
使用上一個請求傳回的next_page_token或prev_page_token分別列出下一頁或上一頁的工作。 |
傳回
取得單一作業執行
擷取執行的中繼資料。 結果中的大型陣列在超過 100 個元素時將被分頁。 單一執行的要求會傳回該執行的所有屬性,以及陣列屬性的前 100 個元素 (工作、job_clusters、job_parameters和repair_history)。 使用 next_page_token 欄位來檢查更多結果,並在後續請求中將其值作為page_token傳遞。 如果任何陣列屬性的元素超過 100 個,則會在後續要求中傳回其他結果。 沒有其他結果的陣列在後面的頁面上將是空的。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
執行標識碼
|
run_id | True | integer |
要擷取中繼資料的執行標準識別碼。 此欄位為必要欄位。 |
|
包括歷史記錄
|
include_history | boolean |
是否要在回應中包含維修歷程記錄。 |
|
|
包括已解析的值
|
include_resolved_values | boolean |
是否要在回應中包含已解析的參數值。 |
|
|
頁面權杖
|
page_token | string |
使用從上一個 GetRun 回應傳回的next_page_token來要求執行陣列屬性的下一頁。 |
傳回
- 身體
- JobsRun
取得單一執行的輸出
擷取單一工作執行的輸出和中繼資料。 當筆記本工作透過 dbutils.notebook.exit() 呼叫傳回值時,您可以使用此端點來擷取該值。 Databricks 會將此 API 限制為傳回輸出的前 5 MB。 若要傳回較大的結果,您可以將工作結果儲存在雲端儲存服務中。 此端點會驗證 run_id 參數是否有效,如果 run_id 參數無效,則會傳回 HTTP 狀態碼 400。 執行會在 60 天後自動移除。 如果您想要參考超過 60 天的執行結果,則必須在舊的執行結果到期之前儲存它們。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
執行標識碼
|
run_id | True | integer |
執行的標準識別碼。 |
傳回
取消執行
取消工作執行或工作執行。 執行會以非同步方式取消,因此當此要求完成時,它可能仍在執行。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
run_id
|
run_id | True | integer |
此欄位為必要欄位。 |
取消陳述式執行
要求取消執行陳述式。 呼叫者必須輪詢狀態才能查看終端狀態。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
報表 ID
|
statement_id | True | string |
報表 ID |
執行 SQL 陳述式
執行 SQL 陳述式,並選擇性地等待其結果指定的時間。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
warehouse_id
|
warehouse_id | True | string |
目標倉儲識別碼 |
|
陳述式
|
statement | True | string |
要執行的 SQL 陳述式。 陳述式可以選擇性地參數化,請參閱參數 |
|
名稱
|
name | True | string |
參數標記名稱 |
|
型別
|
type | string |
參數資料類型 |
|
|
value
|
value | string |
參數值 |
|
|
目錄
|
catalog | string |
執行的預設目錄 |
|
|
結構描述
|
schema | string |
執行的預設結構描述 |
|
|
性情
|
disposition | string |
結果擷取模式 |
|
|
format
|
format | string |
結果集格式 |
|
|
on_wait_timeout
|
on_wait_timeout | string |
逾時動作 |
|
|
wait_timeout
|
wait_timeout | string |
結果等待逾時 |
|
|
byte_limit
|
byte_limit | integer |
結果位元組限制 |
|
|
row_limit
|
row_limit | integer |
結果列限制 |
傳回
陳述式執行回應
檢查狀態並取得結果
取得報表的狀態、清單和結果
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
報表 ID
|
statement_id | True | string |
報表 ID |
傳回
陳述式執行回應
觸發新的作業執行
執行作業並傳回觸發執行的run_id。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
idempotency_token
|
idempotency_token | string |
選擇性權杖,以保證工作執行要求的冪等性。 如果已存在具有所提供權杖的執行,則要求不會建立新的執行,而是傳回現有執行的識別碼。 如果刪除具有所提供權杖的執行,則會傳回錯誤。 如果您指定冪等權杖,則在失敗時,您可以重試,直到請求成功為止。 Databricks 保證只會使用該冪等權杖啟動一次執行。 此權杖最多必須有 64 個字元。 如需詳細資訊,請參閱 如何確保作業的冪等性。 |
|
|
job_id
|
job_id | True | integer |
要執行的工作識別碼 |
|
job_parameters
|
job_parameters | object |
執行中使用的工作層級參數。 例如“param”: “overriding_val” |
|
|
惟
|
only | array of string |
要在作業內執行的工作索引鍵清單。 如果未提供此欄位,則會執行工作中的所有工作。 |
|
|
performance_target
|
performance_target | string | ||
|
full_refresh
|
full_refresh | boolean |
如果為true,則會在差異即時資料表上觸發完整重新整理。 |
|
|
enabled
|
enabled | True | boolean |
如果為true,請啟用工作的佇列。 這是必要的欄位。 |
傳回
定義
物體
SqlBaseChunkInfo
結果集區塊的中繼資料
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
結果區塊中的位元組數 |
|
chunk_index
|
chunk_index | integer |
結果集區塊序列中的位置 |
|
row_count
|
row_count | integer |
結果區塊中的列數 |
|
row_offset
|
row_offset | integer |
結果集中的起始列位移 |
SqlColumnInfo
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
名稱
|
name | string |
欄位名稱 |
|
位置
|
position | integer |
欄位置 (從 0 開始) |
|
type_interval_type
|
type_interval_type | string |
間隔類型格式 |
|
type_name
|
type_name | SqlColumnInfoTypeName |
基本資料類型的名稱。 這不包括複雜類型的詳細數據,例如 STRUCT、MAP 或 ARRAY。 |
|
type_precision
|
type_precision | integer |
DECIMAL 類型的位數 |
|
type_scale
|
type_scale | integer |
DECIMAL 類型的小數位數 |
|
type_text
|
type_text | string |
完整的 SQL 類型規格 |
SqlColumnInfoType名稱
基本資料類型的名稱。 這不包括複雜類型的詳細數據,例如 STRUCT、MAP 或 ARRAY。
基本資料類型的名稱。 這不包括複雜類型的詳細數據,例如 STRUCT、MAP 或 ARRAY。
SqlStatement回應
陳述式執行回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
資訊清單
|
manifest | SqlResultManifest |
結果集結構描述和中繼資料 |
|
結果
|
result | SqlResultData | |
|
statement_id
|
statement_id | string |
報表 ID |
|
狀態
|
status | SqlStatementStatus |
陳述式執行狀態 |
SqlResult資訊清單
結果集結構描述和中繼資料
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
區塊
|
chunks | array of SqlBaseChunkInfo |
結果區塊中繼資料 |
|
format
|
format | string | |
|
結構描述
|
schema | SqlResultSchema |
結果集直欄定義 |
|
total_byte_count
|
total_byte_count | integer |
結果集中的位元組總數 |
|
total_chunk_count
|
total_chunk_count | integer |
區塊總數 |
|
total_row_count
|
total_row_count | integer |
列總數 |
|
截斷
|
truncated | boolean |
結果截斷狀態 |
SqlStatement狀態
陳述式執行狀態
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
錯誤
|
error | SqlServiceError | |
|
狀態
|
state | SqlStatementState |
陳述式執行狀態 |
SqlStatementState
SqlService錯誤
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
error_code
|
error_code | string | |
|
訊息
|
message | string |
錯誤訊息 |
SqlResultSchema
結果集直欄定義
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
column_count
|
column_count | integer | |
|
columns
|
columns | array of SqlColumnInfo |
SqlResultData
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
結果區塊中的位元組 |
|
chunk_index
|
chunk_index | integer |
區塊位置 |
|
data_array
|
data_array | SqlJsonArray |
具有字串值的陣列陣列 |
|
external_links
|
external_links | array of SqlExternalLink | |
|
next_chunk_index
|
next_chunk_index | integer |
下一個區塊索引 |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
下一個區塊連結 |
|
row_count
|
row_count | integer |
區塊中的列 |
|
row_offset
|
row_offset | integer |
起始列偏移 |
SqlJson陣列
具有字串值的陣列陣列
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
物品
|
array of |
SqlExternalLink
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
區塊中的位元組 |
|
chunk_index
|
chunk_index | integer |
區塊位置 |
|
呼氣
|
expiration | date-time |
連結到期時間 |
|
external_link
|
external_link | string | |
|
http_headers
|
http_headers | object |
必要的 HTTP 標頭 |
|
next_chunk_index
|
next_chunk_index | integer |
下一個區塊索引 |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
下一個區塊連結 |
|
row_count
|
row_count | integer |
區塊中的列 |
|
row_offset
|
row_offset | integer |
起始列偏移 |
JobsRunNow回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
新觸發執行的全域唯一識別碼。 |
工作效能目標
JobsPipelineParams
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
如果為true,則會在差異即時資料表上觸發完整重新整理。 |
JobsQueueSettings
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
enabled
|
enabled | boolean |
如果為true,請啟用工作的佇列。 這是必要的欄位。 |
JobsListJobs回應
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
jobs
|
jobs | array of JobsBaseJob |
工作清單。 只有在有工作要列出時才包含在回應中。 |
|
next_page_token
|
next_page_token | string |
可用來列出下一頁作業的權杖 (如果適用)。 |
|
prev_page_token
|
prev_page_token | string |
可用來列出作業前一頁的權杖 (如果適用)。 |
工作基礎工作
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
created_time
|
created_time | integer |
建立此作業的時間,以紀元毫秒為單位 (自 1970 年 1 月 1 日 UTC 以來的毫秒)。 |
|
creator_user_name
|
creator_user_name | string |
建立者使用者名稱。 如果使用者已被刪除,則此欄位將不會包含在回應中。 |
|
effective_budget_policy_id
|
effective_budget_policy_id | uuid |
此工作用於成本歸因目的的預算政策 ID。 這可以通過(按優先順序)設置:1。 透過帳戶或工作區主控台進行預算管理員 2. 工作詳細資料頁面中的工作 UI 和使用 budget_policy_id 3 的工作 API。 根據run_as身分識別在創造或修改就業機會時的可存取預算政策推斷出預設值。 |
|
還有更多
|
has_more | boolean |
指出工作是否有更多未顯示的陣列屬性 (工作、job_clusters)。 您可以透過 :method:jobs/get 端點存取它們。 它僅與 API 2.2 :method:jobs/list 請求相關,並具有 expand_tasks=true。 |
|
job_id
|
job_id | integer |
此工作的標準識別碼。 |
|
設定
|
settings | JobsJobSettings | |
|
trigger_state
|
trigger_state | JobsTriggerStateProto |
工作工作設定
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
budget_policy_id
|
budget_policy_id | uuid |
使用者指定要用於此任務的預算政策的 ID。 如果未指定,在建立或修改作業時,可能會套用預設預算原則。 請參閱 effective_budget_policy_id 以取得此工作負載所使用的預算原則。 |
|
連續的
|
continuous | JobsContinuous | |
|
部署
|
deployment | JobsJobDeployment | |
|
說明
|
description | string |
作業的選擇性描述。 UTF-8 編碼的最大長度為 27700 個字元。 |
|
edit_mode
|
edit_mode | JobsJobEditMode | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
environments
|
environments | array of JobsJobEnvironment |
可供此作業無伺服器工作參考的執行環境規格清單。 無伺服器任務需要有一個環境。 對於無伺服器筆記本工作,環境可在筆記本環境面板中存取。 對於其他無伺服器工作,必須在工作設定中使用environment_key來指定工作環境。 |
|
git_source
|
git_source | JobsGitSource | |
|
健康情況
|
health | JobsJobsHealthRules | |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
此作業的工作可共用和重複使用的作業叢集規格清單。 無法在共用工作叢集中宣告程式庫。 您必須在作業設定中宣告相依程式庫。 |
|
max_concurrent_runs
|
max_concurrent_runs | integer |
工作並行執行的選用允許數目上限。 如果您想要能夠同時執行相同工作的多個執行,請設定此值。 例如,如果您以頻繁的排程觸發工作,並想要允許連續執行彼此重疊,或想要觸發因輸入參數而不同的多個執行,這非常有用。 此設定只會影響新的執行。 例如,假設作業的並行數為 4,且有 4 個並行作用中執行。 然後將並行設定為 3 不會終止任何作用中的執行。 不過,從那時起,除非作用中執行少於 3 個,否則會略過新的執行。 此值不能超過 1000。 將此值設定為 0 會導致略過所有新執行。 |
|
名稱
|
name | string |
工作的可選名稱。 UTF-8 編碼的最大長度為 4096 個字節。 |
|
notification_settings
|
notification_settings | JobsJobNotificationSettings | |
|
parameters
|
parameters | array of JobsJobParameterDefinition |
工作層次參數定義 |
|
performance_target
|
performance_target | JobsPerformanceTarget | |
|
佇列
|
queue | JobsQueueSettings | |
|
run_as
|
run_as | JobsJobRunAs | |
|
時間表
|
schedule | JobsCronSchedule | |
|
tags
|
tags | object |
與工作相關聯的標籤一覽。 這些會被轉送至叢集,作為任務叢集的叢集標籤,並且受到與叢集標籤相同的限制。 最多可以新增 25 個標記至作業。 |
|
tasks
|
tasks | array of JobsTask |
此作業所要執行的工作規格清單。 它支援寫入端點中多達 1000 個元素 (:method:jobs/create、:method:jobs/reset、:method:jobs/update、:method:jobs/submit)。 讀取端點只會傳回 100 個工作。 如果有超過 100 個任務可用,您可以使用 :method:jobs/get 對它們進行分頁。 使用物件根目錄的 next_page_token 欄位來判斷是否有更多結果可用。 |
|
timeout_seconds
|
timeout_seconds | integer |
可選擇的超時設定,可應用於此工作每次的執行。 值 0 表示沒有逾時。 |
|
觸發
|
trigger | JobsTriggerSettings | |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
工作連續
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus |
工作暫停狀態
工作工作部署
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
類型
|
kind | JobsJobDeploymentKind | |
|
metadata_file_path
|
metadata_file_path | string |
包含部署中繼資料之檔案的路徑。 |
JobsJobDeploymentKind
工作JobEditMode
工作工作電子郵件通知
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
當執行持續時間超過健康情況欄位中為RUN_DURATION_SECONDS度量指定的臨界值時,要通知的電子郵件地址清單。 如果未在工作的健全狀況欄位中指定RUN_DURATION_SECONDS度量的規則,則不會傳送通知。 |
|
on_failure
|
on_failure | array of string |
執行未成功完成時要通知的電子郵件地址清單。 如果執行以 INTERNAL_ERROR life_cycle_state 或 FAILED 或 TIMED_OUT result_state 結尾,則會被視為已成功完成。 如果未在建立工作、重設或更新時指定此值,則清單是空的,且不會傳送通知。 |
|
on_start
|
on_start | array of string |
執行開始時要通知的電子郵件地址清單。 如果未在工作建立、重設或更新時指定,則清單是空的,且不會傳送通知。 |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
電子郵件地址清單,用於在超過任何串流的任何串流待辦專案閾值時通知。 您可以使用下列計量在健康情況欄位中設定串流待辦專案閾值:STREAMING_BACKLOG_BYTES、STREAMING_BACKLOG_RECORDS、STREAMING_BACKLOG_SECONDS或STREAMING_BACKLOG_FILES。 警示是根據這些指標的 10 分鐘平均值。 如果問題仍然存在,則每 30 分鐘重新發送一次通知。 |
|
on_success
|
on_success | array of string |
執行成功完成時要通知的電子郵件地址清單。 如果執行以 TERMINATED life_cycle_state 和 SUCCESS result_state結束,則會被視為已順利完成。 如果未在工作建立、重設或更新時指定,則清單是空的,且不會傳送通知。 |
工作工作環境
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
environment_key
|
environment_key | string |
環境的關鍵。 它必須在工作中是唯一的。 |
|
規格
|
spec | ComputeEnvironment |
計算環境
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
依賴
|
dependencies | array of string |
pip 相依性清單,在此環境中的 pip 版本所支援。 每個相依性都是每個 https://pip.pypa.io/en/stable/reference/requirements-file-format/的有效 pip 需求檔案行。 允許的相依性包括需求指定元、封存 URL、本機專案路徑 (例如 Databricks 中的 WSFS 或 UC 磁碟區) 或 VCS 專案 URL。 |
|
environment_version
|
environment_version | string |
必須的。 環境使用的環境版本。 每個版本都附帶一個特定的 Python 版本和一組 Python 套件。 版本是一個字符串,由一個整數組成。 |
工作GitSource
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
git_branch
|
git_branch | string |
此工作要出庫及使用的分支名稱。 此欄位無法與git_tag或git_commit一起指定。 |
|
git_commit
|
git_commit | string |
承諾由此工作簽出並使用。 此欄位無法與git_branch或git_tag一起指定。 |
|
git_provider
|
git_provider | JobsGitProvider | |
|
git_snapshot
|
git_snapshot | JobsGitSnapshot | |
|
git_tag
|
git_tag | string |
此工作要出庫及使用的標籤名稱。 此欄位無法與git_branch或git_commit一起指定。 |
|
git_url
|
git_url | string |
此工作要複製的儲存庫 URL。 |
工作Git提供者
作業GitSnapshot
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
used_commit
|
used_commit | string |
用來執行執行的認可。 如果指定git_branch,則會指向執行時分支的 HEAD;如果指定git_tag,則會指向標籤所指向的認可。 |
工作工作健康規則
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
規則
|
rules | array of JobsJobsHealthRule |
工作工作健康規則
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
計量
|
metric | JobsJobsHealthMetric | |
|
OP
|
op | JobsJobsHealthOperator | |
|
value
|
value | integer |
指定健康情況度量應遵守的臨界值,以符合健康情況規則。 |
工作工作健康指標
工作工作健康操作員
JobsJobCluster
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
job_cluster_key
|
job_cluster_key | string |
工作叢集的唯一名稱。 此欄位是必填欄位,且在工作中必須是唯一的。 JobTaskSettings 可能會參考此欄位,以決定要啟動哪個叢集以執行工作。 |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
計算叢集規格
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
apply_policy_default_values
|
apply_policy_default_values | boolean |
當設定為 true 時,原則中的固定和預設值將會用於省略的欄位。 當設定為 false 時,只會套用原則中的固定值。 |
|
自動縮放
|
autoscale | ComputeAutoScale | |
|
autotermination_minutes
|
autotermination_minutes | integer |
在叢集處於非使用中狀態之後,會在幾分鐘內自動終止叢集。 如果未設定,將不會自動終止此叢集。 如果指定,臨界值必須介於 10 到 10000 分鐘之間。 使用者也可以將此值設定為0,以明確停用自動終止。 |
|
azure_attributes
|
azure_attributes | ComputeAzureAttributes | |
|
cluster_log_conf
|
cluster_log_conf | ComputeClusterLogConf | |
|
叢集名稱
|
cluster_name | string |
使用者要求的叢集名稱。 這不一定是唯一的。 如果未在建立時指定,叢集名稱會是空字串。 對於工作叢集,叢集名稱會根據工作和工作執行 ID 自動設定。 |
|
custom_tags
|
custom_tags | object |
叢集資源的附加標籤。 除了default_tags之外,Databricks 還會使用這些標籤標記所有叢集資源 (例如 AWS 執行個體和 EBS 磁碟區)。 附註: - 目前,Databricks 最多允許 45 個自訂標籤 - 只有在資源的標籤是叢集標籤的子集時,叢集才能重複使用雲端資源 |
|
data_security_mode
|
data_security_mode | ComputeDataSecurityMode | |
|
docker_image
|
docker_image | ComputeDockerImage | |
|
driver_instance_pool_id
|
driver_instance_pool_id | string |
叢集驅動程式所屬實例集區的選擇性標識碼。 如果未指派驅動程式集區,集區叢集會使用標識符為 (instance_pool_id) 的實例集區。 |
|
driver_node_type_id
|
driver_node_type_id | string |
Spark 驅動程式的節點類型。 請注意,此欄位是選用的;如果未設定,驅動節點類型將設定為與上述定義node_type_id相同的值。 如果已設定virtual_cluster_size,則不應設定此字段以及node_type_id。 如果同時指定driver_node_type_id、node_type_id和virtual_cluster_size,則優先driver_node_type_id和node_type_id。 |
|
enable_elastic_disk
|
enable_elastic_disk | boolean |
自動調整本機儲存:啟用時,這個叢集會在 Spark 工作執行個體的磁碟空間不足時動態取得額外的磁碟空間。 此功能需要特定的 AWS 許可權才能正確運作 - 如需詳細資訊,請參閱使用者指南。 |
|
enable_local_disk_encryption
|
enable_local_disk_encryption | boolean |
是否要在叢集 VM 的本機磁碟上啟用 LUKS |
|
init_scripts
|
init_scripts | array of ComputeInitScriptInfo |
用於儲存 init 指令的組態。 您可以指定任意數目的目的地。 指令碼會依提供的順序循序執行。 如果指定cluster_log_conf,則會將init指令碼記錄傳送至 <destination>/<cluster-ID>/init_scripts。 |
|
instance_pool_id
|
instance_pool_id | string |
叢集所屬實例集區的選擇性標識符。 |
|
is_single_node
|
is_single_node | boolean |
只有在kind = CLASSIC_PREVIEW時,才能使用此欄位。 設定為 true 時,Databricks 會自動設定單一節點相關的custom_tags、spark_conf和num_workers |
|
類型
|
kind | ComputeKind | |
|
node_type_id
|
node_type_id | string |
此欄位透過單一值,將對此叢集中每個 Spark 節點可使用的資源編碼。 例如,Spark 節點可以針對記憶體或計算密集型工作負載進行布建和優化。 您可以使用 :method:clusters/listNodeTypes API 呼叫來擷取可用的節點類型清單。 |
|
num_workers
|
num_workers | integer |
此叢集應該擁有的工作節點數目。 叢集有一個 Spark 驅動程式和 num_workers 個執行程式,總共 num_workers + 1 個 Spark 節點。 附註: 讀取叢集的內容時,此欄位會反映所需的工作者數目,而不是實際的現行工作者數目。 例如,如果叢集的大小從 5 個調整為 10 個工作者,則此欄位將立即更新以反映 10 個工作者的目標大小,而spark_info中列出的工作者將隨著新節點的佈建而逐漸從 5 個增加到 10 個。 |
|
policy_id
|
policy_id | string |
適用時用來建立叢集之叢集原則的標識符。 |
|
runtime_engine
|
runtime_engine | ComputeRuntimeEngine | |
|
single_user_name
|
single_user_name | string |
單一使用者名稱 (如果data_security_mode SINGLE_USER) |
|
spark_conf
|
spark_conf | object |
包含一組選用的、使用者指定的 Spark 設定索引鍵/值組的物件。 使用者也可以分別透過 spark.driver.extraJavaOptions 和 spark.executor.extraJavaOptions 將一串額外的 JVM 選項傳遞給驅動程式和執行程式。 |
|
spark_env_vars
|
spark_env_vars | object |
包含一組選用的、使用者指定的環境變數索引鍵/值組的物件。 請注意,在啟動驅動程式和工作角色時,表單 (X,Y) 的鍵值對將按原樣匯出 (即匯出 X='Y')。 為了指定一組額外的SPARK_DAEMON_JAVA_OPTS,建議您將它們附加至 $SPARK_DAEMON_JAVA_OPTS,如下列範例所示。 這可確保所有預設 Databricks 受控環境變數也包含在內。 範例 Spark 環境變數:{“SPARK_WORKER_MEMORY”: “28000m”, “SPARK_LOCAL_DIRS”: “/local_disk0”} 或 {“SPARK_DAEMON_JAVA_OPTS”: “$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true”} |
|
spark_version
|
spark_version | string |
叢集的 Spark 版本,例如 3.3.x-scala2.11。 您可以使用 :method:clusters/sparkVersions API 呼叫來擷取可用的 Spark 版本清單。 |
|
ssh_public_keys
|
ssh_public_keys | array of string |
將新增至此叢集中每個 Spark 節點的 SSH 公鑰內容。 對應的私鑰可用於在連接埠 2200 上使用使用者名稱 ubuntu 登入。 最多可以指定10個按鍵。 |
|
use_ml_runtime
|
use_ml_runtime | boolean |
只有在kind = CLASSIC_PREVIEW時,才能使用此欄位。 effective_spark_version由spark_version(DBR版本)、此欄位use_ml_runtime以及node_type_id是否為GPU節點來決定。 |
|
workload_type
|
workload_type | ComputeWorkloadType |
計算自動調整
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
max_workers
|
max_workers | integer |
叢集在超載時可以相應增加的工作者數目上限。 請注意,max_workers必須嚴格大於min_workers。 |
|
min_workers
|
min_workers | integer |
叢集在未充分利用時可以縮減到的最小工作者數目。 這也是叢集建立後將擁有的初始工作角色數目。 |
ComputeAzure屬性
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
availability
|
availability | ComputeAzureAvailability | |
|
first_on_demand
|
first_on_demand | integer |
叢集的前first_on_demand節點將放置在隨需執行個體上。 此值應大於 0,以確保叢集驅動程式節點放置在隨選執行個體上。 如果此值大於或等於目前叢集大小,則所有節點都會放置在隨需執行個體上。 如果此值小於目前的叢集大小,則first_on_demand節點將放置在隨需執行個體上,其餘節點將放置在可用性執行個體上。 請注意,此值不會影響叢集大小,且目前無法在叢集的生命週期內變更。 |
|
log_analytics_info
|
log_analytics_info | ComputeLogAnalyticsInfo | |
|
spot_bid_max_price
|
spot_bid_max_price | double |
要用於 Azure Spot 執行個體的最高出價。 競標的最高價格不能高於執行個體的隨需價格。 如果未指定,則預設值為 -1,這指定無法根據價格收回實例,而且只能根據可用性來收回。 此外,值應該 > 為 0 或 -1。 |
ComputeAzureAvailability
計算日誌分析信息
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
log_analytics_primary_key
|
log_analytics_primary_key | string | |
|
log_analytics_workspace_id
|
log_analytics_workspace_id | string |
計算叢集日誌會議
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
DBFS
|
dbfs | ComputeDbfsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo |
ComputeDbfsStorageInfo
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
目的地
|
destination | string |
dbfs 目的地,例如 dbfs:/my/path |
ComputeVolumes儲存資訊
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
目的地
|
destination | string |
UC 磁碟區目的地,例如 /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh 或 dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh |
ComputeDataSecurity模式
ComputeDockerImage
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
basic_auth
|
basic_auth | ComputeDockerBasicAuth | |
|
url
|
url | string |
docker 映像的 URL。 |
ComputeDockerBasicAuth
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
密碼
|
password | string |
使用者密碼 |
|
使用者名稱
|
username | string |
用戶的名稱 |
ComputeInitScriptInfo
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
ABFSS
|
abfss | ComputeAdlsgen2Info | |
|
檔案
|
file | ComputeLocalFileInfo | |
|
GCS
|
gcs | ComputeGcsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo | |
|
工作區
|
workspace | ComputeWorkspaceStorageInfo |
ComputeAdlsgen2Info
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
目的地
|
destination | string |
abfss 目的地,例如 abfss://< container-name>@<storage-account-name.dfs.core.windows.net/>< directory-name>。 |
ComputeLocalFileInfo
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
目的地
|
destination | string |
本機檔案目的地,例如 file:/my/local/file.sh |
ComputeGcsStorageInfo
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
目的地
|
destination | string |
GCS 目的地/URI,例如 gs://my-bucket/some-prefix |
ComputeWorkspaceStorageInfo
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
目的地
|
destination | string |
wsfs 目的地,例如 workspace:/cluster-init-scripts/setup-datadog.sh |
計算種類
計算運行時引擎
計算工作負載類型
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
clients
|
clients | ComputeClientsTypes |
計算用戶端類型
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
jobs
|
jobs | boolean |
設定工作後,叢集可用於工作 |
|
筆記本
|
notebooks | boolean |
設定筆記本後,此叢集可用於筆記本 |
JobsJobNotification設定
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
如果為true,則如果執行已取消,請勿將通知傳送給on_failure中指定的收件者。 |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
如果為true,則如果跳過執行,請勿將通知傳送給on_failure中指定的收件者。 |
JobsJobParameter定義
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
預設
|
default | string |
參數的預設值。 |
|
名稱
|
name | string |
已定義參數的名稱。 只能包含英數字元、_、-和。 |
工作JobRunAs
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
service_principal_name
|
service_principal_name | string |
作用中服務主體的應用程式識別碼。 設定此欄位需要 servicePrincipal/使用者角色。 |
|
user_name
|
user_name | string |
工作區使用者的電子郵件。 非系統管理員使用者只能將此字段設定為自己的電子郵件。 |
工作CronSchedule
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus | |
|
quartz_cron_expression
|
quartz_cron_expression | string |
使用 Quartz 語法描述工作排程的 Cron 運算式。 如需詳細資訊,請參閱 Cron 觸發器 。 此欄位為必要欄位。 |
|
timezone_id
|
timezone_id | string |
Java 時區 ID。 作業的排程是根據此時區來解析的。 如需詳細資訊,請參閱 Java 時區 。 此欄位為必要欄位。 |
工作任務
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
condition_task
|
condition_task | JobsConditionTask | |
|
dashboard_task
|
dashboard_task | JobsDashboardTask | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
指定工作相依性圖形的可選物件陣列。 此欄位中指定的所有工作都必須先完成,才能執行此工作。 只有在run_if條件為 true 時,工作才會執行。 索引鍵是task_key,值是指派給相依任務的名稱。 |
|
說明
|
description | string |
此作業的選用說明。 |
|
disable_auto_optimization
|
disable_auto_optimization | boolean |
停用無伺服器中自動最佳化的選項 |
|
email_notifications
|
email_notifications | JobsTaskEmailNotifications | |
|
environment_key
|
environment_key | string |
參考任務中環境規格的索引鍵。 使用無伺服器運算時,Python 指令碼、Python 輪盤和 dbt 工作需要此欄位。 |
|
existing_cluster_id
|
existing_cluster_id | string |
如果existing_cluster_id,則用於所有執行的現有叢集 ID。 在現有叢集上執行作業或工作時,如果叢集停止回應,您可能需要手動重新啟動叢集。 我們建議在新叢集上執行作業和工作,以提高可靠性 |
|
for_each_task
|
for_each_task | JobsForEachTask | |
|
健康情況
|
health | JobsJobsHealthRules | |
|
job_cluster_key
|
job_cluster_key | string |
如果job_cluster_key,則會重複使用job.settings.job_clusters中指定的叢集來執行此工作。 |
|
libraries
|
libraries | array of ComputeLibrary |
要安裝在叢集上的程式庫的選用清單。 預設值是空白清單。 |
|
max_retries
|
max_retries | integer |
選擇性重試不成功執行的次數上限。 如果執行以 FAILED result_state或INTERNAL_ERROR life_cycle_state完成,則會視為執行失敗。 值 -1 表示無限期重試,值 0 表示永不重試。 |
|
min_retry_interval_millis
|
min_retry_interval_millis | integer |
失敗執行開始與後續重試執行之間的選用最小間隔 (以毫秒為單位)。 預設行為是立即重試不成功的執行。 |
|
new_cluster
|
new_cluster | ComputeClusterSpec | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | JobsTaskNotificationSettings | |
|
pipeline_task
|
pipeline_task | JobsPipelineTask | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | JobsPythonWheelTask | |
|
retry_on_timeout
|
retry_on_timeout | boolean |
選擇性原則,用於指定在逾時時是否重試工作。預設行為是在逾時時不重試。 |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
spark_jar_task
|
spark_jar_task | JobsSparkJarTask | |
|
spark_python_task
|
spark_python_task | JobsSparkPythonTask | |
|
spark_submit_task
|
spark_submit_task | JobsSparkSubmitTask | |
|
sql_task
|
sql_task | Object | |
|
task_key
|
task_key | string |
工作的唯一名稱。 此欄位可用來從其他作業參照此作業。 此欄位是必要欄位,且在其父工作中必須是唯一的。 在更新或重設時,此欄位用於參考要更新或重設的任務。 |
|
timeout_seconds
|
timeout_seconds | integer |
套用至此工作工作的每次執行的選擇性逾時。 值 0 表示沒有逾時。 |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
JobsConditionTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
left
|
left | string |
條件作業的左運算元。 可以是字串值,也可以是工作狀態或參數參照。 |
|
OP
|
op | JobsConditionTaskOp | |
|
右
|
right | string |
條件作業的正確運算元。 可以是字串值,也可以是工作狀態或參數參照。 |
JobsConditionTaskOp
JobsDashboardTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
dashboard_id
|
dashboard_id | string |
要重新整理的儀表板識別碼。 |
|
月租方案
|
subscription | JobsSubscription | |
|
warehouse_id
|
warehouse_id | string |
選用:要針對排程執行儀表板的倉儲 ID。 如果未指定,則會使用儀表板的預設倉儲。 |
工作訂閱
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
custom_subject
|
custom_subject | string |
選用:允許使用者在傳送給訂閱者的電子郵件上指定自訂主旨行。 |
|
暫停
|
paused | boolean |
如果為true,則訂閱將不會傳送電子郵件。 |
|
使用者
|
subscribers | array of JobsSubscriptionSubscriber |
要將儀表板快照傳送至的訂閱者清單。 |
JobsSubscription訂閱者
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
destination_id
|
destination_id | string |
當destination_id欄位存在時,儀表板的快照將傳送至目的地。 |
|
user_name
|
user_name | string |
當user_name欄位存在時,儀表板的快照將傳送到使用者的電子郵件。 |
工作來源
JobsTask相依性
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
結果
|
outcome | string |
只能在條件任務相依性上指定。 必須滿足才能執行此工作的相依作業的結果。 |
|
task_key
|
task_key | string |
此任務所依賴的任務名稱。 |
工作任務電子郵件通知
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
當執行持續時間超過健康情況欄位中為RUN_DURATION_SECONDS度量指定的臨界值時,要通知的電子郵件地址清單。 如果未在工作的健全狀況欄位中指定RUN_DURATION_SECONDS度量的規則,則不會傳送通知。 |
|
on_failure
|
on_failure | array of string |
執行未成功完成時要通知的電子郵件地址清單。 如果執行以 INTERNAL_ERROR life_cycle_state 或 FAILED 或 TIMED_OUT result_state 結尾,則會被視為已成功完成。 如果未在建立工作、重設或更新時指定此值,則清單是空的,且不會傳送通知。 |
|
on_start
|
on_start | array of string |
執行開始時要通知的電子郵件地址清單。 如果未在工作建立、重設或更新時指定,則清單是空的,且不會傳送通知。 |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
電子郵件地址清單,用於在超過任何串流的任何串流待辦專案閾值時通知。 您可以使用下列計量在健康情況欄位中設定串流待辦專案閾值:STREAMING_BACKLOG_BYTES、STREAMING_BACKLOG_RECORDS、STREAMING_BACKLOG_SECONDS或STREAMING_BACKLOG_FILES。 警示是根據這些指標的 10 分鐘平均值。 如果問題仍然存在,則每 30 分鐘重新發送一次通知。 |
|
on_success
|
on_success | array of string |
執行成功完成時要通知的電子郵件地址清單。 如果執行以 TERMINATED life_cycle_state 和 SUCCESS result_state結束,則會被視為已順利完成。 如果未在工作建立、重設或更新時指定,則清單是空的,且不會傳送通知。 |
計算庫
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
克蘭
|
cran | ComputeRCranLibrary | |
|
罐
|
jar | string |
要安裝的 JAR 程式庫的 URI。 支援的 URI 包括工作區路徑、Unity 目錄磁碟區路徑和 ADLS URI。 例如:{ “jar”: “/Workspace/path/to/library.jar” }、{ “jar” : “/Volumes/path/to/library.jar” } 或 { “jar”: “abfss://my-bucket/library.jar” }。 如果使用 ADLS,請確定叢集對程式庫具有讀取存取權。 您可能需要使用 Microsoft Entra ID 服務主體啟動叢集,才能存取 ADLS URI。 |
|
專家
|
maven | ComputeMavenLibrary | |
|
皮皮
|
pypi | ComputePythonPyPiLibrary | |
|
要求
|
requirements | string |
要安裝的 requirements.txt 檔案的 URI。 僅支援工作區路徑和 Unity 目錄磁碟區路徑。 例如:{ “requirements”: “/Workspace/path/to/requirements.txt” } 或 { “requirements” : “/Volumes/path/to/requirements.txt” } |
|
WHL
|
whl | string |
要安裝的輪程式庫的 URI。 支援的 URI 包括工作區路徑、Unity 目錄磁碟區路徑和 ADLS URI。 例如:{ “whl”: “/Workspace/path/to/library.whl” }、{ “whl” : “/Volumes/path/to/library.whl” } 或 { “whl”: “abfss://my-bucket/library.whl” }。 如果使用 ADLS,請確定叢集對程式庫具有讀取存取權。 您可能需要使用 Microsoft Entra ID 服務主體啟動叢集,才能存取 ADLS URI。 |
每個任務的工作
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
並行
|
concurrency | integer |
選擇性允許的任務並行執行次數上限。 如果您想要能夠同時執行任務的多個執行,請設定此值。 |
|
輸入
|
inputs | string |
要迭代的任務陣列。 這可以是 JSON 字串或陣列參數的參考。 |
|
工作
|
task | Object |
ComputeRCran程式庫
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
套件
|
package | string |
要安裝的 CRAN 套件名稱。 |
|
存放庫
|
repo | string |
可以找到套件的存放庫。 如果未指定,則會使用預設的 CRAN 存放庫。 |
ComputeMaven程式庫
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
座標
|
coordinates | string |
Gradle 樣式的 maven 座標。 例如:「org.jsoup:jsoup:1.7.2」。 |
|
排除
|
exclusions | array of string |
要排除的依賴項清單。 例如:[“slf4j:slf4j”, “*:hadoop-client”]。 Maven 相依性排除: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html。 |
|
存放庫
|
repo | string |
Maven 儲存庫,以從中安裝 Maven 套件。 如果省略,則會同時搜尋 Maven 中央存放庫和 Spark 套件。 |
ComputePythonPyPi 程式庫
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
套件
|
package | string |
要安裝的 pypi 套件名稱。 也支援選用的確切版本規格。 範例:「simplejson」和「simplejson==3.8.0」。 |
|
存放庫
|
repo | string |
可以找到套件的存放庫。 如果未指定,則會使用預設 pip 索引。 |
工作NotebookTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
要用於此工作的每次執行的基本參數。 如果執行是透過呼叫 :method:jobs/run Now 並指定參數來起始,則會合併兩個參數對映。 如果在 base_parameters 和 run-now 中指定相同的索引鍵,則會使用 run-now 中的值。 使用「工作」參數變數來設定包含工作執行相關資訊的參數。 如果筆記本採用未在工作base_parameters或立即執行覆寫參數中指定的參數,則會使用筆記本中的預設值。 使用 dbutils.widgets.get 在筆記本中擷取這些參數。 此欄位的 JSON 表示法不能超過 1MB。 |
|
notebook_path
|
notebook_path | string |
要在 Databricks 工作區或遠端存放庫中執行的筆記本路徑。 對於儲存在 Databricks 工作區中的筆記本,路徑必須是絕對的,並以斜線開頭。 對於儲存在遠端儲存庫中的筆記本,路徑必須是相對的。 此欄位為必要欄位。 |
|
來源
|
source | JobsSource | |
|
warehouse_id
|
warehouse_id | string |
選擇性warehouse_id,可在 SQL 倉儲上執行筆記本。 不支援傳統 SQL 倉儲,請使用無伺服器或專業版 SQL 倉儲。 請注意,SQL 倉儲僅支援 SQL 儲存格;如果筆記本包含非 SQL 儲存格,則執行將會失敗。 |
JobsTaskNotification設定
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
alert_on_last_attempt
|
alert_on_last_attempt | boolean |
如果為true,則不要傳送通知給on_start中指定的收件者,以取得重試的執行,並且在最後一次重試執行之前,不要將通知傳送給on_failure中指定的收件者。 |
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
如果為true,則如果執行已取消,請勿將通知傳送給on_failure中指定的收件者。 |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
如果為true,則如果跳過執行,請勿將通知傳送給on_failure中指定的收件者。 |
工作管道任務
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
如果為true,則會在差異即時資料表上觸發完整重新整理。 |
|
pipeline_id
|
pipeline_id | string |
要執行的管線工作的完整名稱。 |
工作PythonWheelTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
entry_point
|
entry_point | string |
要使用的命名入口點,如果它不存在於套件的元資料中,則直接使用 $packageName.$entryPoint() 執行套件中的函數 |
|
named_parameters
|
named_parameters | object |
以 [“--name=task”, “--data=dbfs:/path/to/data.json”] 的形式傳遞給 Python 滾輪任務的命令列參數。 如果參數不是 Null,請將其保留空白。 |
|
package_name
|
package_name | string |
要執行的套件名稱 |
|
parameters
|
parameters | array of string |
傳遞給 Python 滾輪任務的命令列參數。 如果 named_parameters 不是 null,請將其保留空白。 |
JobsRunIf
JobsRunJobTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
job_id
|
job_id | integer |
要觸發的工作識別碼。 |
|
job_parameters
|
job_parameters | object |
用來觸發工作的工作層級參數。 |
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
工作SparkJarTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
main_class_name
|
main_class_name | string |
包含要執行的 main 方法之類別的完整名稱。 這個類別必須包含在提供做為程式庫的 JAR 中。 程式碼必須使用 SparkContext.getOrCreate 來取得 Spark 內容;否則,作業的執行會失敗。 |
|
parameters
|
parameters | array of string |
傳遞給 main 方法的參數。 使用「工作參數變數」來設定包含工作執行相關資訊的參數。 |
工作SparkPythonTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |
傳遞至 Python 檔案的命令列參數。 使用「工作」參數變數來設定包含工作執行相關資訊的參數。 |
|
python_file
|
python_file | string |
要執行的 Python 檔案。 支援雲端檔案 URI (例如 dbfs:/、s3:/、adls:/、gcs:/) 和工作區路徑。 針對儲存在 Databricks 工作區中的 Python 檔案,路徑必須是絕對的,且以 / 開頭。 對於儲存在遠端儲存庫中的檔案,路徑必須是相對路徑。 此欄位為必要欄位。 |
|
來源
|
source | JobsSource |
作業SparkSubmitTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |
傳遞給 spark 提交的命令列參數。 使用「工作」參數變數來設定包含工作執行相關資訊的參數。 |
工作Webhook通知
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of JobsWebhook |
當執行持續時間超過健康情況欄位中為RUN_DURATION_SECONDS度量指定的臨界值時,要呼叫的系統通知 ID 的選擇性清單。 最多可以為on_duration_warning_threshold_exceeded屬性指定 3 個目的地。 |
|
on_failure
|
on_failure | array of JobsWebhook |
執行失敗時要呼叫的系統通知識別碼選擇性清單。 最多可以為on_failure屬性指定 3 個目的地。 |
|
on_start
|
on_start | array of JobsWebhook |
執行開始時要呼叫的系統通知識別碼的選擇性清單。 最多可以為on_start屬性指定 3 個目的地。 |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of JobsWebhook |
系統通知識別碼的選擇性清單,當任何資料流程超過任何串流待辦專案閾值時,要呼叫。 您可以使用下列計量在健康情況欄位中設定串流待辦專案閾值:STREAMING_BACKLOG_BYTES、STREAMING_BACKLOG_RECORDS、STREAMING_BACKLOG_SECONDS或STREAMING_BACKLOG_FILES。 警示是根據這些指標的 10 分鐘平均值。 如果問題仍然存在,則每 30 分鐘重新發送一次通知。 最多可以為on_streaming_backlog_exceeded屬性指定 3 個目的地。 |
|
on_success
|
on_success | array of JobsWebhook |
執行成功完成時要呼叫的系統通知識別碼選擇性清單。 最多可以為on_success屬性指定 3 個目的地。 |
工作Webhook
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
識別碼
|
id | string |
JobsTriggerSettings
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerConfiguration | |
|
pause_status
|
pause_status | JobsPauseStatus | |
|
週期的
|
periodic | JobsPeriodicTriggerConfiguration |
JobsFileArrivalTriggerConfiguration
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
min_time_between_triggers_seconds
|
min_time_between_triggers_seconds | integer |
如果設定,則觸發程序只會在自上次觸發程序觸發以來經過的指定時間量之後才開始執行。 允許的最小值為 60 秒 |
|
url
|
url | string |
要監視檔案抵達的 URL。 路徑必須指向外部位置的根或子路徑。 |
|
wait_after_last_change_seconds
|
wait_after_last_change_seconds | integer |
如果設定,則觸發程序只會在指定的時間量內未發生任何檔案活動之後才開始執行。 這使得在觸發運行之前可以等待一批傳入文件到達。 允許的最小值為 60 秒。 |
JobsPeriodicTriggerConfiguration
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
間隔
|
interval | integer |
觸發程式應該執行的間隔。 |
|
單位
|
unit | JobsPeriodicTriggerConfigurationTimeUnit |
JobsPeriodicTriggerConfigurationTimeUnit
工作觸發狀態原型
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerState |
JobsFileArrivalTriggerState
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
using_file_events
|
using_file_events | boolean |
指出觸發程序是否利用檔案事件來偵測檔案到達。 |
工作執行
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
觸發工作執行的此執行嘗試序號。 執行的初始嘗試的attempt_number為 0。 如果初始執行嘗試失敗,且工作具有重試原則 (max_retries > 0) ,則會使用原始嘗試識別碼的original_attempt_run_id和遞增attempt_number來建立後續執行。 只有在成功之前才會重試執行,且最大attempt_number值與工作的max_retries值相同。 |
|
cleanup_duration
|
cleanup_duration | integer |
終止叢集並清除任何相關成分所花費的時間 (以毫秒為單位)。 工作執行的持續時間是setup_duration、execution_duration和cleanup_duration的總和。 多工作業工作執行的 cleanup_duration 欄位會設定為 0。 多工工作執行的總持續時間是 run_duration 欄位的值。 |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
cluster_spec
|
cluster_spec | JobsClusterSpec | |
|
creator_user_name
|
creator_user_name | string |
建立者使用者名稱。 如果使用者已被刪除,則此欄位將不會包含在回應中。 |
|
說明
|
description | string |
運行描述 |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
end_time
|
end_time | integer |
此運行結束的時間以紀元毫秒為單位(自 1970 年 1 月 1 日以來的毫秒)。 如果工作仍在執行中,則此欄位會設定為 0。 |
|
execution_duration
|
execution_duration | integer |
在 JAR 或筆記本中執行指令,直到指令完成、失敗、逾時、取消或發生非預期錯誤所花費的時間 (毫秒)。 工作執行的持續時間是setup_duration、execution_duration和cleanup_duration的總和。 多工作業作業執行的 execution_duration 欄位會設定為 0。 多工工作執行的總持續時間是 run_duration 欄位的值。 |
|
git_source
|
git_source | JobsGitSource | |
|
還有更多
|
has_more | boolean |
指出執行是否有更多未顯示的陣列屬性 (工作、job_clusters)。 您可以透過 :method:jobs/getrun 端點存取它們。 它僅與 API 2.2 :method:jobs/listruns 請求相關,expand_tasks=true。 |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
此作業的工作可共用和重複使用的作業叢集規格清單。 無法在共用工作叢集中宣告程式庫。 您必須在作業設定中宣告相依程式庫。 如果有超過 100 個可用的工作叢集,您可以使用 :method:jobs/getrun 對它們進行分頁。 |
|
job_id
|
job_id | integer |
包含此執行之工作的標準識別碼。 |
|
job_parameters
|
job_parameters | array of JobsJobParameter |
執行中使用的作業層級參數 |
|
job_run_id
|
job_run_id | integer |
此執行所屬之工作執行識別碼。 對於舊版和單一任務任務執行,欄位會填入任務執行 ID。 對於工作執行,欄位會填入工作執行所屬之工作執行的識別碼。 |
|
next_page_token
|
next_page_token | string |
可用來列出陣列屬性下一頁的權杖。 |
|
original_attempt_run_id
|
original_attempt_run_id | integer |
如果此執行是先前執行嘗試的重試,則此欄位會包含原始嘗試的run_id;否則,它與run_id相同。 |
|
overriding_parameters
|
overriding_parameters | JobsRunParameters | |
|
queue_duration
|
queue_duration | integer |
執行在佇列中花費的時間 (以毫秒為單位)。 |
|
repair_history
|
repair_history | array of JobsRepairHistoryItem |
運行的修復歷史。 |
|
run_duration
|
run_duration | integer |
完成工作執行和所有修復所需的時間(以毫秒為單位)。 |
|
run_id
|
run_id | integer |
執行的標準識別碼。 此識別碼在所有工作的所有執行中都是唯一的。 |
|
run_name
|
run_name | string |
執行的選用名稱。 UTF-8 編碼的最大長度為 4096 個字節。 |
|
run_page_url
|
run_page_url | string |
執行詳細資料頁面的 URL。 |
|
執行類型
|
run_type | JobsRunType | |
|
時間表
|
schedule | JobsCronSchedule | |
|
setup_duration
|
setup_duration | integer |
設定叢集所花費的時間 (以毫秒為單位)。 對於在新叢集上執行的執行,這是叢集建立時間,對於在現有叢集上執行的執行,此時間應該非常短。 工作執行的持續時間是setup_duration、execution_duration和cleanup_duration的總和。 多任務執行的 setup_duration 欄位會設定為 0。 多工工作執行的總持續時間是 run_duration 欄位的值。 |
|
開始時間
|
start_time | integer |
此執行開始的時間,以紀元毫秒為單位(自 1970 年 1 月 1 日 UTC 以來的毫秒)。 這可能不是工作工作開始執行的時間,例如,如果工作排定要在新叢集上執行,則這是發出叢集建立呼叫的時間。 |
|
狀態
|
status | JobsRunStatus | |
|
tasks
|
tasks | array of JobsRunTask |
執行所執行的工作清單。 每個工作都有自己的run_id可用來呼叫 JobsGetOutput 來擷取執行結果。 如果有超過 100 個可用的任務,您可以使用 :method:jobs/getrun 對它們進行分頁。 使用物件根目錄的 next_page_token 欄位來判斷是否有更多結果可用。 |
|
觸發
|
trigger | JobsTriggerType | |
|
trigger_info
|
trigger_info | JobsTriggerInfo |
作業叢集執行個體
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
cluster_id
|
cluster_id | string |
執行所使用叢集的標準識別碼。 此欄位一律可用於在現有叢集上執行。 對於在新叢集上執行,一旦建立叢集,它就會變成可用。 此值可用來瀏覽至 /#setting/sparkui/$cluster_id/driver-logs 來檢視記錄。 執行完成後,日誌會繼續可用。 如果識別碼尚不可用,則回應將不會包含此欄位。 |
|
spark_context_id
|
spark_context_id | string |
執行所使用的 Spark 內容的標準識別碼。 一旦執行開始執行,就會填入此欄位。 此值可用來瀏覽至 /#setting/sparkui/$cluster_id/$spark_context_id 來檢視 Spark UI。 執行完成後,Spark UI 會繼續可用。 如果識別碼尚不可用,則回應將不會包含此欄位。 |
工作叢集規格
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
existing_cluster_id
|
existing_cluster_id | string |
如果existing_cluster_id,則用於所有執行的現有叢集 ID。 在現有叢集上執行作業或工作時,如果叢集停止回應,您可能需要手動重新啟動叢集。 我們建議在新叢集上執行作業和工作,以提高可靠性 |
|
job_cluster_key
|
job_cluster_key | string |
如果job_cluster_key,則會重複使用job.settings.job_clusters中指定的叢集來執行此工作。 |
|
libraries
|
libraries | array of ComputeLibrary |
要安裝在叢集上的程式庫的選用清單。 預設值是空白清單。 |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
JobsJob參數
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
預設
|
default | string |
參數的選擇性預設值 |
|
名稱
|
name | string |
參數的名稱 |
|
value
|
value | string |
執行中使用的值 |
JobsRun參數
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
JobsRepairHistoryItem
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
end_time
|
end_time | integer |
(已修復)執行的結束時間。 |
|
識別碼
|
id | integer |
修復的 ID。 僅針對代表repair_history維修的項目退回。 |
|
開始時間
|
start_time | integer |
(已修復)執行的開始時間。 |
|
狀態
|
status | JobsRunStatus | |
|
task_run_ids
|
task_run_ids | array of integer |
作為此修復歷程記錄專案一部分執行之工作執行的執行識別碼。 |
|
型別
|
type | JobsRepairHistoryItemType |
JobsRun狀態
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
queue_details
|
queue_details | JobsQueueDetails | |
|
狀態
|
state | JobsRunLifecycleStateV2State | |
|
termination_details
|
termination_details | JobsTerminationDetails |
JobsQueue詳細資料
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
字碼
|
code | JobsQueueDetailsCodeCode | |
|
訊息
|
message | string |
包含佇列詳細資料的描述性訊息。 此欄位是非結構化的,其確切格式可能會變更。 |
JobsQueueDetailsCodeCode
JobsRunLifecycleStateV2狀態
工作終止詳細資料
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
字碼
|
code | JobsTerminationCodeCode | |
|
訊息
|
message | string |
包含終止詳細資料的描述性訊息。 此欄位是非結構化的,格式可能會變更。 |
|
型別
|
type | JobsTerminationTypeType |
JobsTerminationCode代碼
JobsTerminationType類型
JobsRepairHistoryItemType
工作RunType
作業執行任務
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
觸發工作執行的此執行嘗試序號。 執行的初始嘗試的attempt_number為 0。 如果初始執行嘗試失敗,且工作具有重試原則 (max_retries > 0) ,則會使用原始嘗試識別碼的original_attempt_run_id和遞增attempt_number來建立後續執行。 只有在成功之前才會重試執行,且最大attempt_number值與工作的max_retries值相同。 |
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
cleanup_duration
|
cleanup_duration | integer |
終止叢集並清除任何相關成分所花費的時間 (以毫秒為單位)。 工作執行的持續時間是setup_duration、execution_duration和cleanup_duration的總和。 多工作業工作執行的 cleanup_duration 欄位會設定為 0。 多工工作執行的總持續時間是 run_duration 欄位的值。 |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
condition_task
|
condition_task | JobsRunConditionTask | |
|
dashboard_task
|
dashboard_task | Object | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
指定工作相依性圖形的可選物件陣列。 此欄位中指定的所有作業都必須先順利完成,才能執行此作業。 索引鍵是task_key,值是指派給相依任務的名稱。 |
|
說明
|
description | string |
此作業的選用說明。 |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
end_time
|
end_time | integer |
此運行結束的時間以紀元毫秒為單位(自 1970 年 1 月 1 日以來的毫秒)。 如果工作仍在執行中,則此欄位會設定為 0。 |
|
environment_key
|
environment_key | string |
參考任務中環境規格的索引鍵。 使用無伺服器運算時,Python 指令碼、Python 輪盤和 dbt 工作需要此欄位。 |
|
execution_duration
|
execution_duration | integer |
在 JAR 或筆記本中執行指令,直到指令完成、失敗、逾時、取消或發生非預期錯誤所花費的時間 (毫秒)。 工作執行的持續時間是setup_duration、execution_duration和cleanup_duration的總和。 多工作業作業執行的 execution_duration 欄位會設定為 0。 多工工作執行的總持續時間是 run_duration 欄位的值。 |
|
existing_cluster_id
|
existing_cluster_id | string |
如果existing_cluster_id,則用於所有執行的現有叢集 ID。 在現有叢集上執行作業或工作時,如果叢集停止回應,您可能需要手動重新啟動叢集。 我們建議在新叢集上執行作業和工作,以提高可靠性 |
|
for_each_task
|
for_each_task | Object | |
|
git_source
|
git_source | JobsGitSource | |
|
job_cluster_key
|
job_cluster_key | string |
如果job_cluster_key,則會重複使用job.settings.job_clusters中指定的叢集來執行此工作。 |
|
libraries
|
libraries | array of Object |
要安裝在叢集上的程式庫的選用清單。 預設值是空白清單。 |
|
new_cluster
|
new_cluster | Object | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | Object | |
|
pipeline_task
|
pipeline_task | Object | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | Object | |
|
queue_duration
|
queue_duration | integer |
執行在佇列中花費的時間 (以毫秒為單位)。 |
|
resolved_values
|
resolved_values | JobsResolvedValues | |
|
run_duration
|
run_duration | integer |
完成工作執行和所有修復所需的時間(以毫秒為單位)。 |
|
run_id
|
run_id | integer |
工作執行的識別碼。 |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
run_page_url
|
run_page_url | string | |
|
setup_duration
|
setup_duration | integer |
設定叢集所花費的時間 (以毫秒為單位)。 對於在新叢集上執行的執行,這是叢集建立時間,對於在現有叢集上執行的執行,此時間應該非常短。 工作執行的持續時間是setup_duration、execution_duration和cleanup_duration的總和。 多任務執行的 setup_duration 欄位會設定為 0。 多工工作執行的總持續時間是 run_duration 欄位的值。 |
|
spark_jar_task
|
spark_jar_task | Object | |
|
spark_python_task
|
spark_python_task | Object | |
|
spark_submit_task
|
spark_submit_task | Object | |
|
sql_task
|
sql_task | Object | |
|
開始時間
|
start_time | integer |
此執行開始的時間,以紀元毫秒為單位(自 1970 年 1 月 1 日 UTC 以來的毫秒)。 這可能不是工作工作開始執行的時間,例如,如果工作排定要在新叢集上執行,則這是發出叢集建立呼叫的時間。 |
|
狀態
|
status | JobsRunStatus | |
|
task_key
|
task_key | string |
工作的唯一名稱。 此欄位可用來從其他作業參照此作業。 此欄位是必要欄位,且在其父工作中必須是唯一的。 在更新或重設時,此欄位用於參考要更新或重設的任務。 |
|
timeout_seconds
|
timeout_seconds | integer |
套用至此工作工作的每次執行的選擇性逾時。 值 0 表示沒有逾時。 |
|
webhook_notifications
|
webhook_notifications | Object |
JobsRunConditionTask
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
left
|
left | string |
條件作業的左運算元。 可以是字串值,也可以是工作狀態或參數參照。 |
|
OP
|
op | JobsConditionTaskOp | |
|
結果
|
outcome | string |
條件運算式評估結果。 如果任務成功完成,則填寫。 可以是「true」或「false」 |
|
右
|
right | string |
條件作業的正確運算元。 可以是字串值,也可以是工作狀態或參數參照。 |
工作觸發類型
工作觸發資訊
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
執行作業工作執行的執行識別碼 |
JobsRunOutput
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
clean_rooms_notebook_output
|
clean_rooms_notebook_output | Object | |
|
dashboard_output
|
dashboard_output | Object | |
|
dbt_output
|
dbt_output | Object | |
|
錯誤
|
error | string |
錯誤訊息,指出工作失敗的原因或輸出無法使用的原因。 訊息是非結構化的,其確切格式可能會變更。 |
|
error_trace
|
error_trace | string |
如果執行執行時發生錯誤,此欄位會包含任何可用的堆疊追蹤。 |
|
資訊
|
info | string | |
|
記錄
|
logs | string |
寫入標準資料流程 (stdout/stderr) 的工作輸出,例如 spark_jar_task、spark_python_task python_wheel_task。 notebook_task、pipeline_task 或 spark_submit_task 不支援它。 Databricks 會限制此 API 傳回這些記錄的最後 5 MB。 |
|
logs_truncated
|
logs_truncated | boolean |
是否截斷日誌。 |
|
中繼資料
|
metadata | Object | |
|
notebook_output
|
notebook_output | JobsNotebookOutput | |
|
run_job_output
|
run_job_output | JobsRunJobOutput | |
|
sql_output
|
sql_output | Object |
工作筆記本輸出
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
結果
|
result | string |
傳遞給 dbutils.notebook.exit() 的值。 Databricks 會限制此 API 傳回值的前 5 MB。 若要取得較大的結果,您的工作可以將結果儲存在雲端儲存服務中。 如果從未呼叫 dbutils.notebook.exit() ,則此欄位不存在。 |
|
截斷
|
truncated | boolean |
結果是否被截斷。 |
JobsRunJobOutput
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
觸發作業執行的執行識別碼 |
JobsResolved值
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
condition_task
|
condition_task | JobsResolvedConditionTaskValues | |
|
dbt_task
|
dbt_task | JobsResolvedDbtTaskValues | |
|
notebook_task
|
notebook_task | JobsResolvedNotebookTaskValues | |
|
python_wheel_task
|
python_wheel_task | JobsResolvedPythonWheelTaskValues | |
|
run_job_task
|
run_job_task | JobsResolvedRunJobTaskValues | |
|
simulation_task
|
simulation_task | JobsResolvedParamPairValues | |
|
spark_jar_task
|
spark_jar_task | JobsResolvedStringParamsValues | |
|
spark_python_task
|
spark_python_task | JobsResolvedStringParamsValues | |
|
spark_submit_task
|
spark_submit_task | JobsResolvedStringParamsValues | |
|
sql_task
|
sql_task | JobsResolvedParamPairValues |
JobsResolvedConditionTask值
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
left
|
left | string | |
|
右
|
right | string |
JobsResolvedDbtTask值
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
commands
|
commands | array of string |
JobsResolvedNotebookTask值
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
作業已解決PythonWheelTask值
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
named_parameters
|
named_parameters | object | |
|
parameters
|
parameters | array of string |
JobsResolvedRunJobTask值
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
job_parameters
|
job_parameters | object | |
|
parameters
|
parameters | object |
JobsResolvedParamPairValues
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
parameters
|
parameters | object |
JobsResolvedStringParamsValues
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |