本文概述如何註冊 Hive 中繼存放區資料庫,以及如何在 Microsoft Purview 中驗證 Hive 中繼存放區資料庫並與之互動。 如需 Microsoft Purview 的詳細資訊,請閱讀簡介 文章。
支援的功能
掃描功能
| 中繼資料擷取 | 完整掃描 | 增量掃描 | 範圍掃描 |
|---|---|---|---|
| 是 | 是 | 否 | 是 |
支援的 Hive 版本為 2.x 至 3.x。 支援的平台包括 Apache Hadoop、Cloudera 和 Hortonworks。 如果您想要掃描 Azure Databricks,建議您使用 Azure Databricks 連接器,其相容性更強且使用者易記。
掃描 Hive 中繼存放區來源時,Microsoft Purview 支援:
擷取技術中繼資料,包括:
- 伺服器
- 資料庫
- 表格包括資料行、外部索引鍵、唯一條件約束和儲存體描述
- 檢視,包括資料行和儲存體說明
擷取資料表和檢視之間資產關係的靜態譜系。
設定掃描時,您可以選擇掃描整個 Hive 中繼存放區資料庫,或將掃描範圍限定為符合指定名稱 () 或名稱模式 () 的結構描述子集。
其他功能
如需 分類、 敏感度標籤、 原則、 資料譜系和 即時檢視,請參閱 支援的功能清單。
已知限制
從數據源刪除物件時,目前後續掃描不會自動移除 Microsoft Purview 中的對應資產。
必要條件
您必須擁有具有作用中訂用帳戶的 Azure 帳戶。 免費創建一個帳戶。
您必須擁有作用中的 Microsoft Purview 帳戶。
您需要資料來源系統管理員和資料讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源並管理來源。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的存取控制。
如果您的資料來源無法公開存取,請設定最新的自我裝載整合執行階段。
-
為您的案例選擇正確的整合執行階段:
-
若要使用自我裝載整合執行階段:
- 請遵循文章來建立和設定自我裝載整合執行階段。
- 請確定 JDK 11 已安裝在安裝自我裝載整合執行階段的電腦上。 新安裝 JDK 之後,重新啟動電腦,使其生效。
- 請確定C++ 可轉散發套件 (Visual Studio 2012 Update 4 或更新版本的) 已安裝在執行自我裝載整合執行階段的電腦上。 如果您尚未安裝此更新,請 立即下載。
- 在執行自我裝載整合執行階段的電腦上下載 Hive 中繼存放區資料庫的 JDBC 驅動程式。 例如,如果資料庫是 mssql,請下載 Microsoft 的 SQL Server JDBC 驅動程式。 記下您將用來設定掃描的資料夾路徑。
-
若要使用 Kubernetes 支援的自我裝載整合執行階段:
- 請遵循文章來建立和設定 Kubernetes 支援的整合執行階段。
- 在執行自我裝載整合執行階段的電腦上下載 Hive 中繼存放區資料庫的 JDBC 驅動程式。 例如,如果資料庫是 mssql,請下載 Microsoft 的 SQL Server JDBC 驅動程式。 記下您將用來設定掃描的資料夾路徑。
-
若要使用自我裝載整合執行階段:
注意事項
JDBC 驅動程式應該可由自我裝載整合執行階段存取。 根據預設,自我裝載整合執行階段會使用 本機服務帳戶 “NT SERVICE\DIAHostService”。 確保它具有驅動程式資料夾的「讀取並執行」和「列出資料夾內容」權限。
-
為您的案例選擇正確的整合執行階段:
登錄
本節說明如何使用 Microsoft Purview 治理入口網站在 Microsoft Purview 中註冊 Hive 中繼存放區資料庫。
Hive 中繼存放區資料庫唯一支援的驗證是基本驗證。
透過下列方式開啟 Microsoft Purview 治理入口網站:
- 直接 https://web.purview.azure.com 流覽並選取您的 Microsoft Purview 帳戶。
- 開啟 Azure 入口網站,搜尋並選取 Microsoft Purview 帳戶。 選取 [Microsoft Purview 治理入口網站] 按鈕。
選取左窗格中的 資料對應 。
選取 [登錄]。
在 [註冊來源] 中,選取 [Hive 中繼存放區>[繼續]。
在 [註冊來源 (Hive 中繼存放區) 畫面上,執行下列動作:
針對 [ 名稱],輸入 Microsoft Purview 會列為資料來源的名稱。
針對 Hive 叢集 URL,輸入您從 Ambari URL 取得的值。 例如,輸入 hive.azurehdinsight.net。
針對 Hive 中繼存放區伺服器 URL,輸入伺服器的 URL。 例如,輸入 sqlserver://hive.database.windows.net。
從清單中選取集合。
選取 [完成]。
掃描
使用下列步驟掃描 Hive 中繼存放區資料庫,以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取。
在 管理中心 中,選取整合執行階段。 請確定已設定自我裝載整合執行階段。 如果未設定,請使用 必要條件中的步驟。
轉到 來源。
選取已註冊的 Hive 中繼存放區資料庫。
選取 [+ 新增掃描]。
提供下列詳細資料:
名稱:輸入掃描的名稱。
透過整合執行階段連線:選取已設定的自我裝載整合執行階段。
認證:選取要連線到資料來源的認證。 確保:
- 在建立認證時選取 [基本驗證]。
- 在適當的方塊中提供中繼存放區使用者名稱。
- 將中繼存放區密碼儲存在秘密金鑰中。
如需詳細資訊,請參閱 Microsoft Purview 中來源驗證的認證。
中繼存放區 JDBC 驅動程式位置:指定執行自我裝載整合執行階段所在機器中 JDBC 驅動程式位置的路徑。 例如,
D:\Drivers\HiveMetastore。- 針對本機電腦上的自我裝載整合執行階段:
D:\Drivers\HiveMetastore。 這是有效 JAR 資料夾位置的路徑。 此值必須是有效的絕對檔案路徑,且不包含空格。 請確定驅動程式可由自我裝載整合執行階段存取;;深入瞭解 先 決條件 一節。 - 針對 Kubernetes 支援的自我裝載整合執行階段:
./drivers/HiveMetastore。 這是有效 JAR 資料夾位置的路徑。 此值必須是有效的相對檔案路徑。 請參閱文件以 設定外部驅動程式的掃描 ,以便提前上傳驅動程式。
- 針對本機電腦上的自我裝載整合執行階段:
Metastore JDBC 驅動程式類別:提供連線驅動程式的類別名稱。 例如,輸入 \com.microsoft.sqlserver.jdbc.SQLServerDriver。
中繼存放區 JDBC URL:提供連線 URL 值,並定義與中繼存放區資料庫伺服器 URL 的連線。 例如:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300。注意事項
當您從 hive-site.xml複製 URL 時,請從字串中移除
amp;,否則掃描將會失敗。將 SSL 憑證下載至自我裝載整合執行階段電腦,然後在 URL 中更新電腦上 SSL 憑證位置的路徑。
當您在掃描配置中輸入本端檔案路徑時,請將 Windows 路徑分隔字元從反斜線 (
\) 變更為正斜線 (/) 。 例如,如果您將 SSL 憑證放在本機檔案路徑 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem 中,請將參數值變更serverSslCert為 D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem。Metastore JDBC URL 值將如下所示:
jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem中繼存放區資料庫名稱:提供 Hive 中繼存放區資料庫的名稱。
結構描述:指定要匯入的 Hive 結構描述清單。 例如: schema1;schema2。
如果該清單是空的,則會匯入所有使用者結構描述。 預設會忽略所有系統綱目 (例如 SysAdmin) 和物件。
使用 SQL
LIKE運算式語法的可接受綱目名稱模式包括百分號 (%) 。 例如,A%; %B; %C%; D意味著:- 以 A 或
- 以 B 結尾或
- 包含 C 或
- 等於 D
NOT不接受使用 和特殊字元。可用記憶體上限:客戶電腦上可供掃描程序使用的最大記憶體 () GB。 此值取決於要掃描的 Hive 中繼存放區資料庫大小。
注意事項
根據經驗法則,請為每 1000 個表提供 1GB 記憶體。
選取 [繼續]。
針對 Scan trigger (掃描觸發器),選擇是設定排程還是執行掃描一次。
檢閱您的掃描,然後選取儲存並執行。
檢視掃描和掃描執行
若要檢視現有掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應。
- 選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
- 選取具有您要檢視結果的掃描。 窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和度量。
- 選取執行 ID 以檢查 掃描執行詳細資料。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應。
選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取編輯 掃描,以編輯掃描。
- 選取 [取消掃描執行] 來取消進行中的掃描。
- 選取 [刪除掃描] 來刪除掃描。
注意事項
- 刪除掃描不會刪除從先前掃描建立的型錄資產。
譜系
掃描 Hive 中繼存放區來源之後,您可以瀏覽整合式目錄或搜尋整合式目錄以檢視資產詳細資料。
轉到資產 -> 譜系選項卡,您可以在適用時查看資產關係。 請參閱支援的 Hive 中繼存放區譜系案例的 支援功能 一節。 如需有關譜系的詳細資訊,請參閱 資料譜系 和 譜系使用者指南。
後續步驟
現在您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的數據: