本文概述如何註冊 Azure Databricks,以及如何在 Microsoft Purview 中驗證 Azure Databricks 並與之互動。 如需 Microsoft Purview 的詳細資訊,請閱讀簡介 文章。
支援的功能
掃描功能
| 中繼資料擷取 | 完整掃描 | 增量掃描 | 範圍掃描 |
|---|---|---|---|
| 是 | 是 | 否 | 是 |
注意事項
此連接器會從 Azure Databricks 工作區範圍的 Hive 中繼存放區帶來中繼資料。 若要掃描 Azure Databricks Unity 目錄中的中繼資料,請參閱 Azure Databricks Unity 目錄連接器。
掃描 Azure Databricks Hive 中繼存放區時,Microsoft Purview 支援:
擷取技術中繼資料,包括:
- Azure Databricks 工作區
- 蜂巢伺服器
- 資料庫
- 表格包括資料行、外部索引鍵、唯一條件約束和儲存體描述
- 檢視,包括資料行和儲存體說明
擷取外部資料表與外部位置 (外部位置Azure Data Lake Storage Gen2/Azure Blob 資產之間的關聯性) 。
根據檢視定義擷取資料表與檢視之間的靜態譜系。
設定掃描時,您可以選擇掃描整個 Hive 中繼存放區,或將掃描範圍限定為結構描述的子集。
與透過一般 Hive 中繼存放區連接器 進行掃描進行比較,以防您稍早使用它來掃描 Azure Databricks:
- 您可以直接設定 Azure Databricks 工作區的掃描,而不需要直接 HMS 存取權。 它會使用 Databricks 個人存取權杖進行驗證,並連線到叢集以執行掃描。
- 已擷取 Databricks 工作區資訊。
- 會擷取資料表與儲存體資產之間的關係。
其他功能
如需 分類、 敏感度標籤、 原則、 資料譜系和 即時檢視,請參閱 支援的功能清單。
已知限制
從數據源刪除物件時,目前後續掃描不會自動移除 Microsoft Purview 中的對應資產。
必要條件
您必須擁有具有作用中訂用帳戶的 Azure 帳戶。 免費創建一個帳戶。
您必須擁有作用中的 Microsoft Purview 帳戶。
您需要 Azure 金鑰保存庫,並授與 Microsoft Purview 存取秘密的許可權。
您需要資料來源系統管理員和資料讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源並管理來源。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的存取控制。
設定最新的 自我裝載整合執行階段。 如需詳細資訊,請參閱 建立和設定自我裝載整合執行階段。 支援的最低自我裝載 Integration Runtime 版本為 5.20.8227.2。
在您的 Azure Databricks 工作區中:
登錄
本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Azure Databricks 工作區。
移至您的 Microsoft Purview 帳戶。
選取左窗格中的 資料對應 。
選取 [登錄]。
在 [註冊來源] 中,選取 [Azure Databricks>繼續]。
在 [註冊來源 (Azure Databricks) 畫面上,執行下列動作:
針對 [ 名稱],輸入 Microsoft Purview 會列為資料來源的名稱。
針對 [Azure 訂用帳戶 ] 和 [Databricks 工作區名稱],從下拉式清單中選取您要掃描的訂用帳戶和工作區。 Databricks 工作區 URL 會自動填入。
從清單中選取集合。
選取 [完成]。
掃描
使用下列步驟來掃描 Azure Databricks 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取。
在 管理中心 中,選取整合執行階段。 請確定已設定自我裝載整合執行階段。 如果未設定,請使用 建立和管理自我裝載整合執行階段中的步驟。
轉到 來源。
選取已註冊的 Azure Databricks。
選取 [+ 新增掃描]。
提供下列詳細資料:
名稱:輸入掃描的名稱。
提取方法: 指出要從 Hive 中繼存放區或 Unity 目錄擷取中繼資料。 選取 [Hive 中繼存放區]。
透過整合執行階段連線:選取已設定的自我裝載整合執行階段。
認證:選取要連線到資料來源的認證。 確保:
- 在建立認證時選取 [存取權杖驗證]。
- 在適當的方塊中,提供您在必要 條件 中建立的個人存取權杖的秘密名稱。
如需詳細資訊,請參閱 Microsoft Purview 中來源驗證的認證。
叢集識別碼:指定 Microsoft Purview 連線並支援掃描的叢集識別碼。 您可以在 Azure Databricks 工作區 -> 計算 -> 您的叢集 -> 標籤 -> 自動新增的標籤 ->
ClusterId中找到它。掛接點:當您手動將外部儲存體掛接至 Databricks 時,請提供掛接點和 Azure 儲存體來源位置字串。 請使用格式
/mnt/<path>=abfss://<container>@<adls_gen2_storage_account>.dfs.core.windows.net/;/mnt/<path>=wasbs://<container>@<blob_storage_account>.blob.core.windows.net。 它可用來擷取資料表與 Microsoft Purview 中對應儲存體資產之間的關聯性。 此設定是選擇性的,如果未指定,則不會擷取這類關聯性。您可以在筆記本中執行下列 Python 命令,以取得 Databricks 工作區中的掛接點清單:
dbutils.fs.mounts()它列印所有掛載點,如下所示:
[MountInfo(mountPoint='/databricks-datasets', source='databricks-datasets', encryptionType=''), MountInfo(mountPoint='/mnt/ADLS2', source='abfss://samplelocation1@azurestorage1.dfs.core.windows.net/', encryptionType=''), MountInfo(mountPoint='/databricks/mlflow-tracking', source='databricks/mlflow-tracking', encryptionType=''), MountInfo(mountPoint='/mnt/Blob', source='wasbs://samplelocation2@azurestorage2.blob.core.windows.net', encryptionType=''), MountInfo(mountPoint='/databricks-results', source='databricks-results', encryptionType=''), MountInfo(mountPoint='/databricks/mlflow-registry', source='databricks/mlflow-registry', encryptionType=''), MountInfo(mountPoint='/', source='DatabricksRoot', encryptionType='')]在此範例中,將下列項目指定為掛載點:
/mnt/ADLS2=abfss://samplelocation1@azurestorage1.dfs.core.windows.net/;/mnt/Blob=wasbs://samplelocation2@azurestorage2.blob.core.windows.net結構描述:要匯入的結構描述子集,以分號分隔的結構描述清單表示。 例如,
schema1;schema2。 如果該清單是空的,則會匯入所有使用者結構描述。 預設會忽略所有系統綱目和物件。可接受的結構描述名稱模式可以是靜態名稱或包含萬用字元 %。 例如:
A%;%B;%C%;D- 以 A 或
- 以 B 結尾或
- 包含 C 或
- 等於 D
不接受使用 NOT 和特殊字元。
注意事項
自我裝載 Integration Runtime 5.32.8597.1 版和更新版本支援此結構描述篩選。
可用記憶體上限:客戶電腦上可供掃描程序使用的最大記憶體 () GB。 此值取決於要掃描的 Azure Databricks 大小。
注意事項
根據經驗法則,請為每 1000 個表提供 1GB 記憶體。
選取 [繼續]。
針對 Scan trigger (掃描觸發器),選擇是設定排程還是執行掃描一次。
檢閱您的掃描,然後選取儲存並執行。
掃描成功完成之後,請參閱如何 瀏覽和搜尋 Azure Databricks 資產。
檢視掃描和掃描執行
若要檢視現有掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應。
- 選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
- 選取具有您要檢視結果的掃描。 窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和度量。
- 選取執行 ID 以檢查 掃描執行詳細資料。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應。
選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取編輯 掃描,以編輯掃描。
- 選取 [取消掃描執行] 來取消進行中的掃描。
- 選取 [刪除掃描] 來刪除掃描。
注意事項
- 刪除掃描不會刪除從先前掃描建立的型錄資產。
瀏覽和搜尋資產
掃描 Azure Databricks 之後,您可以瀏覽整合式目錄或搜尋整合式目錄以檢視資產詳細資料。
從 Databricks 工作區資產中,您可以找到相關聯的 Hive 中繼存放區和資料表/檢視,反轉也適用。
譜系
請參閱支援的 Azure Databricks 案例上的 支援功能 一節。 如需有關譜系的詳細資訊,請參閱 資料譜系 和 譜系使用者指南。
移至 Hive 表格/檢視資產 -> 譜系索引標籤,您可以在適用時查看資產關係。 對於資料表與外部儲存資產之間的關係,您會看到 Hive 資料表資產和儲存資產直接雙向連線,因為它們會相互影響。 如果您在建立表格陳述式中使用掛載點,則需要在 掃描設定 中提供掛載點資訊,以擷取此類關係。
後續步驟
現在您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的數據: