這很重要
這項功能位於 測試版 (Beta) 中。 工作區管理員可以從 「預覽 」頁面控制對此功能的存取。 請參閱 管理 Azure Databricks 預覽。
使用 dbt 平臺工作,直接從 Azure Databricks 協調和監視現有的 dbt 平臺作業。 本頁說明如何選取和觸發 dbt 工作、設定失敗的自動重試選項,以及監視執行。
dbt平台和dbt任務的區別
Jobs 為 dbt 專案提供兩種任務類型。 根據您的 dbt 專案所管理的位置,選擇正確的一個:
dbt 平台工作:使用此來協調預先存在的 dbt 平台工作。 它連接到 dbt 平台 API 並在那裡觸發運行。 如果您想要集中 Azure Databricks 中的協調流程,同時保留所有 dbt 平臺優點,例如監視和排程,請選擇此選項。
dbt 工作:使用此專案,使用 Git 中的程式碼在 Azure Databricks 叢集上執行 dbt 核心專案。 如果您需要完全控制執行環境,而且偏好完全在 Azure Databricks 內管理相依性,請選擇此選項。 請參閱 適用於工作的 dbt 任務。
先決條件
若要使用 dbt 平台工作,您必須符合下列先決條件:
- 工作區系統管理員必須啟用預覽。 請參閱 管理 Azure Databricks 預覽。
- 您必須在工作區的 Unity Catalog 中繼存放區具有
CREATE CONNECTION權限。 - 存取在 dbt 平台中具有已定義工作的現有 dbt 專案。 若要深入瞭解,請參閱 dbt 文件中的 dbt 平台中的工作 。
- 在dbt平台中產生服務權杖的權限。 若要深入瞭解,請參閱 服務帳戶權杖。
備註
為了安全性和作業穩定性,Databricks 建議產生服務帳戶權杖,而不是個人存取權杖。 服務帳戶權杖不會繫結至個別使用者,而且可以輕鬆設定範圍,以提供最低限度的必要權限。
收集dbt平台詳細資料
若要將 dbt 與 Azure Databricks 整合,您需要下列三個詳細數據:
- 您的 dbt 平台帳戶 ID。
- dbt 平台中產生的 API 金鑰。
- 您的 dbt 平台部署主機 URL。
下列各節說明如何尋找此必要資訊。
取得您的帳戶 ID:
若要擷取您的帳戶 ID:
- 登入dbt平台。
- 導覽至 「設定」>「帳戶設定」。
- 從 URL 尾碼取得帳戶 ID,其格式如下:
https://cloud.getdbt.com/settings/accounts/{account_id}。
取得您的 API 金鑰
若要擷取您的 API 金鑰:
- 登入dbt平台。
- 導覽至 「設定」>「設定檔」>您的設定檔>存取 API>API 金鑰。
主機 URL
您的主機 URL 取決於您的位置和租賃。 請參閱 dbt 文件中的 存取、區域和 IP 位址, 以尋找您區域的 URL。
辨識您的區域和租戶(多租戶或儲存格型)。 使用 Access URL 欄來取得您的主機 URL。
| 租戶類型 | 區域範例 | 主機 URL 範例 |
|---|---|---|
| 多租戶 | 北美洲 | https://cloud.getdbt.com |
| 基於細胞 | 北美洲 (us-east-1) |
https://12345.us1.dbt.com (使用 12345 作為帳戶 ID) |
DBT 平台連線設定
使用下列步驟在 Azure Databricks 中設定 dbt 平台連線。
- 按一下
在側邊欄中點擊目錄。
- 在結構瀏覽器中按一下
然後,按一下建立 連線。 設定連線表單隨即開啟。
- 輸入下列資訊,然後按一下 下一步:
- 在 連線名稱中,輸入名稱。
- 針對 Connection type,選擇 dbt platform。
- 在 主機 文字欄位中輸入您的dbt平台主機URL。 請勿包含尾端斜線 (
/)。 - 輸入您的 dbt 平台帳戶 ID 和您在上一個步驟中收集的 API 權杖。
- 按一下 建立連線 以確認連線詳細資料。
- (選用)授與其他使用者使用連線的權限:
- 在 [主體] 下拉式功能表中選擇您要授與權限的使用者 ID 和群組。
- 選取您想要授與的許可權。
- 按一下 [確認]。
創建一個包含 dbt 平台任務的新工作
- 在您的工作區中,點擊
,然後在側邊欄中選擇作業和管線。
- 點擊 Create,然後點擊 Job。 新工作會自動使用相關聯的時間戳記命名。
- (選用)按一下工作名稱,然後輸入新名稱進行編輯。
- 點擊 新增其他任務類型。 搜尋dbt平台,然後按一下磚以選取它。
- 輸入 [工作名稱]。
- 使用 dbt 平台連線 下拉式功能表來選取先前建立的連線。
- 使用 dbt 平台作業 下拉式功能表,選取您要協調的 dbt 平台作業。
- 按一下 [儲存任務]。
- (可選)按一下 立即執行 以手動測試您的工作。
設定排程或觸發條件
您可以將工作配置為根據時間表或新資料的到達自動觸發。 若要進一步瞭解可用選項,請參閱 使用排程和觸發程式自動化工作。
備註
在 dbt 平台工作中不支援持續觸發機制。
監控運行
您可以在 Azure Databricks UI 中監視 Lakeflow 作業。 對於 dbt 平台工作,您也可以開啟指向 dbt 平台中作業執行細節的鏈結。
若要監視執行:
按一下工作區側邊欄中的 Jobs &; Pipelines 。
(選用)選取 [工作] 和 [由我擁有] 篩選器。
點擊工作的名稱連結。
此 執行 索引標籤隨即出現,顯示作用中和已完成執行的矩陣和清單檢視。
按一下執行清單檢視中 [ 開始時間 ] 欄中的執行連結。 dbt 平台任務狀態開啟。
按一下 [在 dbt 中檢視 ] ,以查看 dbt 平台中的工作執行詳細資料。