共用方式為


連線到 Microsoft Purview 中的 Hive 中繼存放區資料庫並管理

本文概述如何註冊 Hive 中繼存放區資料庫,以及如何在 Microsoft Purview 中驗證 Hive 中繼存放區資料庫並與之互動。 如需 Microsoft Purview 的詳細資訊,請閱讀簡介 文章

支援的功能

掃描功能

中繼資料擷取 完整掃描 增量掃描 範圍掃描

支援的 Hive 版本為 2.x 至 3.x。 支援的平台包括 Apache Hadoop、Cloudera 和 Hortonworks。 如果您想要掃描 Azure Databricks,建議您使用 Azure Databricks 連接器,其相容性更強且使用者易記。

掃描 Hive 中繼存放區來源時,Microsoft Purview 支援:

  • 擷取技術中繼資料,包括:

    • 伺服器
    • 資料庫
    • 表格包括資料行、外部索引鍵、唯一條件約束和儲存體描述
    • 檢視,包括資料行和儲存體說明
  • 擷取資料表和檢視之間資產關係的靜態譜系。

設定掃描時,您可以選擇掃描整個 Hive 中繼存放區資料庫,或將掃描範圍限定為符合指定名稱 () 或名稱模式 () 的結構描述子集。

其他功能

如需 分類敏感度標籤原則資料譜系即時檢視,請參閱 支援的功能清單

已知限制

從數據源刪除物件時,目前後續掃描不會自動移除 Microsoft Purview 中的對應資產。

必要條件

登錄

本節說明如何使用 Microsoft Purview 治理入口網站在 Microsoft Purview 中註冊 Hive 中繼存放區資料庫。

Hive 中繼存放區資料庫唯一支援的驗證是基本驗證。

  1. 透過下列方式開啟 Microsoft Purview 治理入口網站:

  2. 選取左窗格中的 資料對應

  3. 選取 [登錄]

  4. [註冊來源] 中,選取 [Hive 中繼存放區>[繼續]。

  5. [註冊來源 (Hive 中繼存放區) 畫面上,執行下列動作:

    1. 針對 [ 名稱],輸入 Microsoft Purview 會列為資料來源的名稱。

    2. 針對 Hive 叢集 URL,輸入您從 Ambari URL 取得的值。 例如,輸入 hive.azurehdinsight.net

    3. 針對 Hive 中繼存放區伺服器 URL,輸入伺服器的 URL。 例如,輸入 sqlserver://hive.database.windows.net

    4. 從清單中選取集合。

    螢幕擷取畫面,顯示用於註冊 Hive 來源的方塊。

  6. 選取 [完成]

掃描

提示

若要疑難排解掃描的任何問題:

  1. 確認您已遵循所有 先決條件
  2. 檢閱我們的 掃描疑難排解文件

使用下列步驟掃描 Hive 中繼存放區資料庫,以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取

  1. 在 管理中心 中,選取整合執行階段。 請確定已設定自我裝載整合執行階段。 如果未設定,請使用 必要條件中的步驟。

  2. 轉到 來源

  3. 選取已註冊的 Hive 中繼存放區資料庫。

  4. 選取 [+ 新增掃描]。

  5. 提供下列詳細資料:

    1. 名稱:輸入掃描的名稱。

    2. 透過整合執行階段連線:選取已設定的自我裝載整合執行階段。

    3. 認證:選取要連線到資料來源的認證。 確保:

      • 在建立認證時選取 [基本驗證]。
      • 在適當的方塊中提供中繼存放區使用者名稱。
      • 將中繼存放區密碼儲存在秘密金鑰中。

      如需詳細資訊,請參閱 Microsoft Purview 中來源驗證的認證

    4. 中繼存放區 JDBC 驅動程式位置:指定執行自我裝載整合執行階段所在機器中 JDBC 驅動程式位置的路徑。 例如,D:\Drivers\HiveMetastore

      1. 針對本機電腦上的自我裝載整合執行階段: D:\Drivers\HiveMetastore。 這是有效 JAR 資料夾位置的路徑。 此值必須是有效的絕對檔案路徑,且不包含空格。 請確定驅動程式可由自我裝載整合執行階段存取;;深入瞭解 先 決條件 一節
      2. 針對 Kubernetes 支援的自我裝載整合執行階段: ./drivers/HiveMetastore。 這是有效 JAR 資料夾位置的路徑。 此值必須是有效的相對檔案路徑。 請參閱文件以 設定外部驅動程式的掃描 ,以便提前上傳驅動程式。
    5. Metastore JDBC 驅動程式類別:提供連線驅動程式的類別名稱。 例如,輸入 \com.microsoft.sqlserver.jdbc.SQLServerDriver

    6. 中繼存放區 JDBC URL:提供連線 URL 值,並定義與中繼存放區資料庫伺服器 URL 的連線。 例如:jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300

      注意事項

      當您從 hive-site.xml複製 URL 時,請從字串中移除 amp; ,否則掃描將會失敗。

      SSL 憑證下載至自我裝載整合執行階段電腦,然後在 URL 中更新電腦上 SSL 憑證位置的路徑。

      當您在掃描配置中輸入本端檔案路徑時,請將 Windows 路徑分隔字元從反斜線 (\) 變更為正斜線 (/) 。 例如,如果您將 SSL 憑證放在本機檔案路徑 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem 中,請將參數值變更 serverSslCertD:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

      Metastore JDBC URL 值將如下所示:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. 中繼存放區資料庫名稱:提供 Hive 中繼存放區資料庫的名稱。

    8. 結構描述:指定要匯入的 Hive 結構描述清單。 例如: schema1;schema2

      如果該清單是空的,則會匯入所有使用者結構描述。 預設會忽略所有系統綱目 (例如 SysAdmin) 和物件。

      使用 SQL LIKE 運算式語法的可接受綱目名稱模式包括百分號 (%) 。 例如, A%; %B; %C%; D 意味著:

      • 以 A 或
      • 以 B 結尾或
      • 包含 C 或
      • 等於 D

      NOT不接受使用 和特殊字元。

    9. 可用記憶體上限:客戶電腦上可供掃描程序使用的最大記憶體 () GB。 此值取決於要掃描的 Hive 中繼存放區資料庫大小。

      注意事項

      根據經驗法則,請為每 1000 個表提供 1GB 記憶體。

    顯示掃描詳細資料方塊的螢幕擷取畫面。

  6. 選取 [繼續]

  7. 針對 Scan trigger (掃描觸發器),選擇是設定排程還是執行掃描一次。

  8. 檢閱您的掃描,然後選取儲存並執行。

檢視掃描和掃描執行

若要檢視現有掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應
  2. 選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
  3. 選取具有您要檢視結果的掃描。 窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和度量。
  4. 選取執行 ID 以檢查 掃描執行詳細資料

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應

  2. 選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取編輯 掃描,以編輯掃描。
    • 選取 [取消掃描執行] 來取消進行中的掃描。
    • 選取 [刪除掃描] 來刪除掃描。

注意事項

  • 刪除掃描不會刪除從先前掃描建立的型錄資產。

譜系

掃描 Hive 中繼存放區來源之後,您可以瀏覽整合式目錄搜尋整合式目錄以檢視資產詳細資料。

轉到資產 -> 譜系選項卡,您可以在適用時查看資產關係。 請參閱支援的 Hive 中繼存放區譜系案例的 支援功能 一節。 如需有關譜系的詳細資訊,請參閱 資料譜系譜系使用者指南

後續步驟

現在您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的數據: