共用方式為


dbt 平台工作任務

這很重要

這項功能位於 測試版 (Beta) 中。 工作區管理員可以從 「預覽 」頁面控制對此功能的存取。 請參閱 管理 Azure Databricks 預覽。

使用 dbt 平臺工作,直接從 Azure Databricks 協調和監視現有的 dbt 平臺作業。 本頁說明如何選取和觸發 dbt 工作、設定失敗的自動重試選項,以及監視執行。

dbt平台和dbt任務的區別

Jobs 為 dbt 專案提供兩種任務類型。 根據您的 dbt 專案所管理的位置,選擇正確的一個:

dbt 平台工作:使用此來協調預先存在的 dbt 平台工作。 它連接到 dbt 平台 API 並在那裡觸發運行。 如果您想要集中 Azure Databricks 中的協調流程,同時保留所有 dbt 平臺優點,例如監視和排程,請選擇此選項。

dbt 工作:使用此專案,使用 Git 中的程式碼在 Azure Databricks 叢集上執行 dbt 核心專案。 如果您需要完全控制執行環境,而且偏好完全在 Azure Databricks 內管理相依性,請選擇此選項。 請參閱 適用於工作的 dbt 任務

先決條件

若要使用 dbt 平台工作,您必須符合下列先決條件:

備註

為了安全性和作業穩定性,Databricks 建議產生服務帳戶權杖,而不是個人存取權杖。 服務帳戶權杖不會繫結至個別使用者,而且可以輕鬆設定範圍,以提供最低限度的必要權限。

收集dbt平台詳細資料

若要將 dbt 與 Azure Databricks 整合,您需要下列三個詳細數據:

  • 您的 dbt 平台帳戶 ID。
  • dbt 平台中產生的 API 金鑰。
  • 您的 dbt 平台部署主機 URL。

下列各節說明如何尋找此必要資訊。

取得您的帳戶 ID:

若要擷取您的帳戶 ID:

  1. 登入dbt平台。
  2. 導覽至 「設定」>「帳戶設定」。
  3. 從 URL 尾碼取得帳戶 ID,其格式如下: https://cloud.getdbt.com/settings/accounts/{account_id}

取得您的 API 金鑰

若要擷取您的 API 金鑰:

  1. 登入dbt平台。
  2. 導覽至 「設定」>「設定檔」>您的設定檔>存取 API>API 金鑰

主機 URL

您的主機 URL 取決於您的位置和租賃。 請參閱 dbt 文件中的 存取、區域和 IP 位址, 以尋找您區域的 URL。

辨識您的區域和租戶(多租戶或儲存格型)。 使用 Access URL 欄來取得您的主機 URL。

租戶類型 區域範例 主機 URL 範例
多租戶 北美洲 https://cloud.getdbt.com
基於細胞 北美洲 (us-east-1 https://12345.us1.dbt.com (使用 12345 作為帳戶 ID)

DBT 平台連線設定

使用下列步驟在 Azure Databricks 中設定 dbt 平台連線。

  1. 按一下[資料] 圖示。在側邊欄中點擊目錄
  2. 在結構瀏覽器中按一下 加號圖示。 然後,按一下建立 連線設定連線表單隨即開啟。
  3. 輸入下列資訊,然後按一下 下一步
    • 連線名稱中,輸入名稱。
    • 針對 Connection type,選擇 dbt platform
  4. 主機 文字欄位中輸入您的dbt平台主機URL。 請勿包含尾端斜線 (/)。
  5. 輸入您的 dbt 平台帳戶 ID 和您在上一個步驟中收集的 API 權杖。
  6. 按一下 建立連線 以確認連線詳細資料。
  7. (選用)授與其他使用者使用連線的權限:
    • [主體] 下拉式功能表中選擇您要授與權限的使用者 ID 和群組。
    • 選取您想要授與的許可權。
    • 按一下 [確認]

創建一個包含 dbt 平台任務的新工作

  1. 在您的工作區中,點擊[工作流程] 圖示,然後在側邊欄中選擇作業和管線
  2. 點擊 Create,然後點擊 Job。 新工作會自動使用相關聯的時間戳記命名。
  3. (選用)按一下工作名稱,然後輸入新名稱進行編輯。
  4. 點擊 新增其他任務類型。 搜尋dbt平台,然後按一下磚以選取它。
  5. 輸入 [工作名稱]
  6. 使用 dbt 平台連線 下拉式功能表來選取先前建立的連線。
  7. 使用 dbt 平台作業 下拉式功能表,選取您要協調的 dbt 平台作業。
  8. 按一下 [儲存任務]
  9. (可選)按一下 立即執行 以手動測試您的工作。

設定排程或觸發條件

您可以將工作配置為根據時間表或新資料的到達自動觸發。 若要進一步瞭解可用選項,請參閱 使用排程和觸發程式自動化工作

備註

在 dbt 平台工作中不支援持續觸發機制。

監控運行

您可以在 Azure Databricks UI 中監視 Lakeflow 作業。 對於 dbt 平台工作,您也可以開啟指向 dbt 平台中作業執行細節的鏈結。

若要監視執行:

  1. 按一下工作區側邊欄中的 Jobs &; Pipelines

  2. (選用)選取 [工作][由我擁有] 篩選器。

  3. 點擊工作的名稱連結。

    執行 索引標籤隨即出現,顯示作用中和已完成執行的矩陣和清單檢視。

  4. 按一下執行清單檢視中 [ 開始時間 ] 欄中的執行連結。 dbt 平台任務狀態開啟。

  5. 按一下 [在 dbt 中檢視 ] ,以查看 dbt 平台中的工作執行詳細資料。