共用方式為


連線到 Microsoft Purview 中的 HDFS 並管理 HDFS

本文概述如何在 HDFS) 註冊 Hadoop 分散式檔案系統 (,以及如何在 Microsoft Purview 中驗證 HDFS 並與之互動。 如需 Microsoft Purview 的詳細資訊,請閱讀簡介 文章

支援的功能

掃描功能

中繼資料擷取 完整掃描 增量掃描 範圍掃描

掃描 HDFS 來源時,Microsoft Purview 支援擷取技術中繼資料,包括 HDFS:

  • 名稱節點
  • 資料夾
  • 檔案
  • 資源集

設定掃描時,您可以選擇掃描整個 HDFS 或選擇性資料夾。 在這裡了解支援的檔案格式。

連接器使用 webhdfs 通訊協定連線至 HDFS 並擷取中繼資料。 不支援 MapR Hadoop 分發。

其他功能

如需 分類敏感度標籤原則資料譜系即時檢視,請參閱 支援的功能清單

必要條件

登錄

本節說明如何使用 Microsoft Purview 治理入口網站在 Microsoft Purview 中註冊 HDFS。

註冊步驟

若要在 Microsoft Purview 整合式目錄中註冊新的 HDFS 來源,請遵循下列步驟:

  1. 流覽至 Microsoft Purview 治理入口網站中的 Microsoft Purview 帳戶。
  2. 選取左側導覽中的 資料對應
  3. 選擇 註冊
  4. 在 [ 登錄來源 ] 上,選取 [ HDFS]。 選取 [繼續]

[將來源註冊 (HDFS) ] 畫面上,請遵循下列步驟:

  1. 輸入 名稱 資料來源將列在目錄中。

  2. 以 或 http://<namenode>:<port>的形式輸入 https://<namenode>:<port> HDFS NameNode 的叢集 URL,例如 https://namenodeserver.com:50470http://namenodeserver.com:50070或 。

  3. 從清單中選取集合。

  4. 完成以註冊資料來源。

    Purview 中 HDFS 來源註冊的螢幕擷取畫面。

掃描

請依照下列步驟掃描 HDFS 以自動識別資產。 如需一般掃描的詳細資訊,請參閱我們的 掃描和擷取簡介

掃描的驗證

HDFS 來源支援的驗證類型是 Kerberos 驗證

建立並執行掃描

若要建立並執行新的掃描,請遵循下列步驟:

  1. 請確定已設定自我裝載整合執行階段。 如果未設定,請使用 必要條件中 所述的步驟來建立自我裝載整合執行階段。

  2. 導覽至 來源

  3. 選取已註冊的 HDFS 來源。

  4. 選取 [+ 新增掃描]。

  5. 在「掃描 source_name」頁面上,提供以下詳細資訊:

    1. 名稱:掃描的名稱

    2. 透過整合執行階段連線:選取已設定的自我裝載整合執行階段。 請參閱 先決條件 一節中的設定需求。

    3. 認證:選取要連線到資料來源的認證。 確保:

      • 在建立認證時選取 Kerberos 驗證
      • 在使用者名稱輸入欄位中以 的 <username>@<domain>.com 格式提供使用者名稱。 深入瞭解 使用 HDFS 連接器的 Kerberos 驗證
      • 將用於連線至 HDFS 的使用者密碼儲存在秘密金鑰中。

      Purview 中 HDFS 掃描設定的螢幕擷取畫面。

  6. 選取 [ 測試連線]。

  7. 選取 [繼續]

  8. 在「設定掃描範圍」頁面上,選取您要掃描 () 路徑。

  9. 在「選取掃描規則集」頁面上,選取您要用於結構描述擷取和分類的掃描規則集。 您可以在系統預設值、現有自訂規則集之間進行選擇,或內嵌建立新的規則集。 若要深入瞭解,請參閱 建立掃描規則集

  10. 在「設定掃描觸發器」頁面上,選擇您的 掃描觸發器。 您可以設定排程或執行掃描一次。

  11. 檢閱您的掃描,然後選取儲存並執行。

檢視掃描和掃描執行

若要檢視現有掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應
  2. 選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
  3. 選取具有您要檢視結果的掃描。 窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和度量。
  4. 選取執行 ID 以檢查 掃描執行詳細資料

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應

  2. 選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取編輯 掃描,以編輯掃描。
    • 選取 [取消掃描執行] 來取消進行中的掃描。
    • 選取 [刪除掃描] 來刪除掃描。

注意事項

  • 刪除掃描不會刪除從先前掃描建立的型錄資產。

對 HDFS 連接器使用 Kerberos 驗證

有兩個選項可設定內部部署環境,以對 HDFS 連接器使用 Kerberos 驗證。 您可以選擇更適合您情況的一種。

對於任一選項,請確定您開啟 Hadoop 叢集的 webhdfs:

  1. 建立 webhdfs 的 HTTP 主體和索引鍵。

    重要事項

    根據 Kerberos HTTP SPNEGO 規格,HTTP Kerberos 主體必須以 “HTTP/” 開頭。 從 這裡了解更多。

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. HDFS 組態選項:在 中 hdfs-site.xml新增以下三個屬性。

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

選項 1:加入 Kerberos 領域中的自我裝載整合執行階段電腦

需求

  • 自我裝載整合執行階段電腦必須加入 Kerberos 領域,而且無法加入任何 Windows 網域。

如何設定

在 KDC 伺服器上:

建立主體,並指定密碼。

重要事項

使用者名稱不應包含主機名稱。

Kadmin> addprinc <username>@<REALM.COM>

在自我裝載整合執行階段電腦上:

  1. 執行 Ksetup 公用程式,以配置 KDC) 伺服器和領域 (Kerberos 金鑰發佈中心。

    機器必須設定為工作群組的成員,因為 Kerberos 網域範圍與 Windows 網域不同。 您可以設定 Kerberos 領域,並執行下列命令來新增 KDC 伺服器,以達到此組態。 將 REALM.COM 取代為您自己的網域範圍名稱。

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    執行這些命令之後,請重新啟動機器。

  2. 使用命令驗證 Ksetup 配置。 輸出應該如下所示:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

在您的 Purview 帳戶中:

  • 使用 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 有關配置詳細信息,請檢查 掃描部分中的憑據設置部分。

選項 2:啟用 Windows 網域與 Kerberos 領域之間的相互信任

需求

  • 自我裝載整合執行階段電腦必須加入 Windows 網域。
  • 您需要更新網域控制站設定的權限。

如何設定

注意事項

將下列教學課程中的 REALM.COM 和 AD.COM 取代為您自己的領域名稱和網域控制站。

在 KDC 伺服器上:

  1. 編輯 krb5.conf 檔案中的 KDC 組態,讓 KDC 信任 Windows 網域,方法是參考下列組態範本。 依預設,組態位於 /etc/krb5.conf

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    設定檔案之後,請重新啟動 KDC 服務。

  2. 使用下列命令,在 KDC 伺服器中準備名為 krbtgt/REALM.COM@AD.COM 的主體:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. hadoop.security.auth_to_local HDFS 服務組態檔中,新增 RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//

在網域控制站上:

  1. 執行下列 Ksetup 命令以新增領域項目:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. 建立從 Windows 網域到 Kerberos 領域的信任。 [password] 是主體 krbtgt/REALM.COM@AD.COM 的密碼。

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. 選取 Kerberos 中使用的加密演算法。

    1. 選取 [伺服器管理員]> [群組原則管理>][網域>群組原則物件>] [預設] 或 [作用中網域原則],然後選取 [編輯]。

    2. 在 [群組原則管理編輯器] 窗格中,選取 [電腦設定>原則] [>Windows 設定>] [安全性設定>] [本機原則] [>安全性選項],然後設定 [網路安全性:設定 Kerberos 允許的加密類型]。

    3. 選取連線到 KDC 伺服器時要使用的加密演算法。 您可以選擇所有選項。

      [網路安全性:設定 Kerberos 允許的加密類型] 窗格的螢幕擷取畫面。

    4. 使用指令 Ksetup 來指定要在指定領域上使用的加密演算法。

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. 建立網域帳戶與 Kerberos 主體之間的對應,以便您可以在 Windows 網域中使用 Kerberos 主體。

    1. 選取 [系統管理工具>][Active Directory 使用者和電腦]。

    2. 選取 檢視>進階功能 來設定進階功能。

    3. [進階功能 ] 窗格中,以滑鼠右鍵按一下您要建立對應的帳戶,然後在 [名稱對應] 窗格中,選取 [Kerberos 名稱] 索引標籤。

    4. 從領域新增主體。

      [安全性身分識別對應] 窗格的螢幕擷取畫面。

在自我裝載整合執行階段電腦上:

  • 執行下列 Ksetup 命令以新增網域範圍項目。

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

在您的 Purview 帳戶中:

  • 使用 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 有關配置詳細信息,請檢查 掃描部分中的憑據設置部分。

已知限制

目前,HDFS 連接器不支援 進階資源集的自訂資源集模式規則,將會套用內建資源集模式。

尚不支援敏感度標籤

後續步驟

現在您已註冊來源,請遵循下列指南,以深入瞭解 Microsoft Purview 和您的數據。