本文概述如何在 HDFS) 註冊 Hadoop 分散式檔案系統 (,以及如何在 Microsoft Purview 中驗證 HDFS 並與之互動。 如需 Microsoft Purview 的詳細資訊,請閱讀簡介 文章。
支援的功能
掃描功能
| 中繼資料擷取 | 完整掃描 | 增量掃描 | 範圍掃描 |
|---|---|---|---|
| 是 | 是 | 是 | 是 |
掃描 HDFS 來源時,Microsoft Purview 支援擷取技術中繼資料,包括 HDFS:
- 名稱節點
- 資料夾
- 檔案
- 資源集
設定掃描時,您可以選擇掃描整個 HDFS 或選擇性資料夾。 在這裡了解支援的檔案格式。
連接器使用 webhdfs 通訊協定連線至 HDFS 並擷取中繼資料。 不支援 MapR Hadoop 分發。
其他功能
如需 分類、 敏感度標籤、 原則、 資料譜系和 即時檢視,請參閱 支援的功能清單。
必要條件
- 具有作用中訂用帳戶的 Azure 帳戶。 免費創建一個帳戶。
- 作用中的 Microsoft Purview 帳戶。
- 您需要資料來源系統管理員和資料讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源並管理來源。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的存取控制。
- 為您的案例設定正確的整合執行階段:
-
若要使用自我裝載整合執行階段:
- 請遵循文章來建立和設定自我裝載整合執行階段。
- 請確定 JDK 11 已安裝在安裝自我裝載整合執行階段的電腦上。 新安裝 JDK 之後,重新啟動電腦,使其生效。
- 請確定C++ 可轉散發套件 (Visual Studio 2012 Update 4 或更新版本的) 已安裝在執行自我裝載整合執行階段的電腦上。 如果您尚未安裝此更新,請 立即下載。
- 若要設定您的環境以啟用 Kerberos 驗證,請參閱 對 HDFS 連接器使用 Kerberos 驗證 一節。
-
若要使用 Kubernetes 支援的自我裝載整合執行階段:
- 請遵循文章來建立和設定 Kubernetes 支援的整合執行階段。
- 若要設定您的環境以啟用 Kerberos 驗證,請參閱 對 HDFS 連接器使用 Kerberos 驗證 一節。
-
若要使用自我裝載整合執行階段:
登錄
本節說明如何使用 Microsoft Purview 治理入口網站在 Microsoft Purview 中註冊 HDFS。
註冊步驟
若要在 Microsoft Purview 整合式目錄中註冊新的 HDFS 來源,請遵循下列步驟:
- 流覽至 Microsoft Purview 治理入口網站中的 Microsoft Purview 帳戶。
- 選取左側導覽中的 資料對應 。
- 選擇 註冊
- 在 [ 登錄來源 ] 上,選取 [ HDFS]。 選取 [繼續]。
在 [將來源註冊 (HDFS) ] 畫面上,請遵循下列步驟:
輸入 名稱 資料來源將列在目錄中。
以 或
http://<namenode>:<port>的形式輸入https://<namenode>:<port>HDFS NameNode 的叢集 URL,例如https://namenodeserver.com:50470http://namenodeserver.com:50070或 。從清單中選取集合。
完成以註冊資料來源。
掃描
請依照下列步驟掃描 HDFS 以自動識別資產。 如需一般掃描的詳細資訊,請參閱我們的 掃描和擷取簡介。
掃描的驗證
HDFS 來源支援的驗證類型是 Kerberos 驗證。
建立並執行掃描
若要建立並執行新的掃描,請遵循下列步驟:
請確定已設定自我裝載整合執行階段。 如果未設定,請使用 必要條件中 所述的步驟來建立自我裝載整合執行階段。
導覽至 來源。
選取已註冊的 HDFS 來源。
選取 [+ 新增掃描]。
在「掃描 source_name」頁面上,提供以下詳細資訊:
名稱:掃描的名稱
透過整合執行階段連線:選取已設定的自我裝載整合執行階段。 請參閱 先決條件 一節中的設定需求。
認證:選取要連線到資料來源的認證。 確保:
- 在建立認證時選取 Kerberos 驗證 。
- 在使用者名稱輸入欄位中以 的
<username>@<domain>.com格式提供使用者名稱。 深入瞭解 使用 HDFS 連接器的 Kerberos 驗證。 - 將用於連線至 HDFS 的使用者密碼儲存在秘密金鑰中。
選取 [ 測試連線]。
選取 [繼續]。
在「設定掃描範圍」頁面上,選取您要掃描 () 路徑。
在「選取掃描規則集」頁面上,選取您要用於結構描述擷取和分類的掃描規則集。 您可以在系統預設值、現有自訂規則集之間進行選擇,或內嵌建立新的規則集。 若要深入瞭解,請參閱 建立掃描規則集。
在「設定掃描觸發器」頁面上,選擇您的 掃描觸發器。 您可以設定排程或執行掃描一次。
檢閱您的掃描,然後選取儲存並執行。
檢視掃描和掃描執行
若要檢視現有掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應。
- 選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
- 選取具有您要檢視結果的掃描。 窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和度量。
- 選取執行 ID 以檢查 掃描執行詳細資料。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 資料對應。
選取資料來源。 您可以在 「最近掃描」下檢視該資料來源上現有的掃描清單,也可以在 「掃描」 標籤上檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取編輯 掃描,以編輯掃描。
- 選取 [取消掃描執行] 來取消進行中的掃描。
- 選取 [刪除掃描] 來刪除掃描。
注意事項
- 刪除掃描不會刪除從先前掃描建立的型錄資產。
對 HDFS 連接器使用 Kerberos 驗證
有兩個選項可設定內部部署環境,以對 HDFS 連接器使用 Kerberos 驗證。 您可以選擇更適合您情況的一種。
對於任一選項,請確定您開啟 Hadoop 叢集的 webhdfs:
建立 webhdfs 的 HTTP 主體和索引鍵。
重要事項
根據 Kerberos HTTP SPNEGO 規格,HTTP Kerberos 主體必須以 “HTTP/” 開頭。 從 這裡了解更多。
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>HDFS 組態選項:在 中
hdfs-site.xml新增以下三個屬性。<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
選項 1:加入 Kerberos 領域中的自我裝載整合執行階段電腦
需求
- 自我裝載整合執行階段電腦必須加入 Kerberos 領域,而且無法加入任何 Windows 網域。
如何設定
在 KDC 伺服器上:
建立主體,並指定密碼。
重要事項
使用者名稱不應包含主機名稱。
Kadmin> addprinc <username>@<REALM.COM>
在自我裝載整合執行階段電腦上:
執行 Ksetup 公用程式,以配置 KDC) 伺服器和領域 (Kerberos 金鑰發佈中心。
機器必須設定為工作群組的成員,因為 Kerberos 網域範圍與 Windows 網域不同。 您可以設定 Kerberos 領域,並執行下列命令來新增 KDC 伺服器,以達到此組態。 將 REALM.COM 取代為您自己的網域範圍名稱。
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>執行這些命令之後,請重新啟動機器。
使用命令驗證
Ksetup配置。 輸出應該如下所示:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
在您的 Purview 帳戶中:
- 使用 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 有關配置詳細信息,請檢查 掃描部分中的憑據設置部分。
選項 2:啟用 Windows 網域與 Kerberos 領域之間的相互信任
需求
- 自我裝載整合執行階段電腦必須加入 Windows 網域。
- 您需要更新網域控制站設定的權限。
如何設定
注意事項
將下列教學課程中的 REALM.COM 和 AD.COM 取代為您自己的領域名稱和網域控制站。
在 KDC 伺服器上:
編輯 krb5.conf 檔案中的 KDC 組態,讓 KDC 信任 Windows 網域,方法是參考下列組態範本。 依預設,組態位於 /etc/krb5.conf。
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }設定檔案之後,請重新啟動 KDC 服務。
使用下列命令,在 KDC 伺服器中準備名為 krbtgt/REALM.COM@AD.COM 的主體:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM在 hadoop.security.auth_to_local HDFS 服務組態檔中,新增
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//。
在網域控制站上:
執行下列
Ksetup命令以新增領域項目:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM建立從 Windows 網域到 Kerberos 領域的信任。 [password] 是主體 krbtgt/REALM.COM@AD.COM 的密碼。
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]選取 Kerberos 中使用的加密演算法。
選取 [伺服器管理員]> [群組原則管理>][網域>群組原則物件>] [預設] 或 [作用中網域原則],然後選取 [編輯]。
在 [群組原則管理編輯器] 窗格中,選取 [電腦設定>原則] [>Windows 設定>] [安全性設定>] [本機原則] [>安全性選項],然後設定 [網路安全性:設定 Kerberos 允許的加密類型]。
選取連線到 KDC 伺服器時要使用的加密演算法。 您可以選擇所有選項。
使用指令
Ksetup來指定要在指定領域上使用的加密演算法。C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
建立網域帳戶與 Kerberos 主體之間的對應,以便您可以在 Windows 網域中使用 Kerberos 主體。
選取 [系統管理工具>][Active Directory 使用者和電腦]。
選取 檢視>進階功能 來設定進階功能。
在 [進階功能 ] 窗格中,以滑鼠右鍵按一下您要建立對應的帳戶,然後在 [名稱對應] 窗格中,選取 [Kerberos 名稱] 索引標籤。
從領域新增主體。
在自我裝載整合執行階段電腦上:
執行下列
Ksetup命令以新增網域範圍項目。C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
在您的 Purview 帳戶中:
- 使用 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 有關配置詳細信息,請檢查 掃描部分中的憑據設置部分。
已知限制
目前,HDFS 連接器不支援 進階資源集的自訂資源集模式規則,將會套用內建資源集模式。
尚不支援敏感度標籤。
後續步驟
現在您已註冊來源,請遵循下列指南,以深入瞭解 Microsoft Purview 和您的數據。