共用方式為


瞭解資源集

本文可協助您瞭解如何在 Microsoft Purview 中使用資源集,將資料資產對應至邏輯資源。

重要事項

進階資源集功能僅適用於使用傳統 Microsoft Purview 或將傳統帳戶升級至已啟用進階資源集的 Microsoft Purview 整合式目錄的現有進階資源集客戶。 此功能不適用於使用整合式目錄的 Microsoft Purview 新客戶。

背景資訊

大規模資料處理系統通常會將單一資料表儲存為多個檔案。 在 Microsoft Purview 整合式目錄中,此概念會使用資源集來表示。 資源集是型錄中的單一物件,代表儲存體中的大量資產。

例如,假設您的 Spark 叢集已將 DataFrame 保存至Azure Data Lake Storage (ADLS) Gen2 資料來源。 雖然在 Spark 中,資料表看起來像是單一邏輯資源,但磁碟上可能有數千個 Parquet 檔案,每個檔案都代表 DataFrame 內容總計的分割區。 物聯網數據和網絡日誌數據面臨同樣的挑戰。 想像一下,您有一個感測器每秒輸出數次日誌檔案。 用不了多久,您就會從該單一感測器獲得數十萬個日誌檔案。

Microsoft Purview 如何偵測資源集

Microsoft Purview 支援偵測 Azure Blob 儲存體、ADLS Gen1、ADLS Gen2、Azure 檔案儲存體和 Amazon S3 中的資源集。

Microsoft Purview 會在掃描時自動偵測資源集。 此功能會查看透過掃描擷取的所有資料,並將其與一組已定義的模式進行比較。

例如,假設您掃描 URL 為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet的資料來源。 Microsoft Purview 會查看路徑區段,並判斷它們是否符合任何內建模式。 它具有 GUID、數字、日期格式、當地語系化代碼 (的內建模式,例如 en-us) 等。 在此情況下,數字模式會符合 23。 Microsoft Purview 假設此檔案是名為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet的資源集的一部分。

或者,針對類似 https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json的 URL,Microsoft Purview 會同時符合當地語系化模式和數字模式,產生名為 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json的資源集。

使用此策略,Microsoft Purview 會將下列資源對應至相同的資源集: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Microsoft Purview 不會偵測為資源集的檔案類型

Microsoft Purview 不會刻意嘗試將大部分的檔檔檔類型 (例如 Word、Excel 或 PDF) 分類為資源集。 CSV 格式除外,因為這是一種常見的分割檔案格式。

Microsoft Purview 如何掃描資源集

當 Microsoft Purview 偵測到它認為是資源集一部分的資源時,它會從完整掃描切換至範例掃描。 範例掃描只會開啟它認為位於資源集中的檔案子集。 對於它開啟的每個檔案,它都會使用其結構描述並執行其分類器。 然後,Microsoft Purview 會在開啟的資源中尋找最新的資源,並在目錄中整個資源集的專案中使用該資源的架構和分類。

進階資源集

Microsoft Purview 可以透過 進階資源集 功能自訂並進一步擴充您的資源集資產。 進階資源集可讓 Microsoft Purview 瞭解擷取之資料的基礎分割區,並啟用建立 資源集模式規則 ,以自訂 Microsoft Purview 在掃描期間將資源集分組的方式。

啟用進階資源集時,Microsoft Purview 會執行額外的彙總,以計算資源集資產的下列相關資訊:

  • 包含資源集之檔案的範例路徑。
  • 分割區計數,顯示組成資源集的檔案數目。
  • 構成資源集之所有檔案的總大小。

這些屬性可以在資源集的資產詳細資料頁面上找到。

進階資源集開啟時計算的內容

開啟進階資源集

根據預設,進階資源集會在所有新的 Microsoft Purview 實例中關閉。 您可以從管理中心的 帳戶資訊 啟用進階資源集。 只有在根集合中新增至資料策展人角色的使用者才能管理進階資源集設定。

開啟進階資源集。

啟用進階資源集之後,所有新擷取的資產都會進行額外的擴充。 擷取後,這些擴充最多可能需要 12 小時 才能在您的資產上使用。 Microsoft Purview 小組建議在開啟功能之後,先等候一小時,再掃描新的數據湖數據。

重要事項

啟用進階資源集會影響資產和分類見解的重新整理率。 當進階資源集開啟時,資產和分類見解會每天更新兩次。

此外,當您啟用進階資源集時,最多可能需要 12 小時 才能看到結構描述更新。

內建資源集模式

Microsoft Purview 支援下列資源集模式。 這些型樣可以顯示為目錄中的名稱或檔案名稱的一部分。

以正則運算式為基礎的模式

模式名稱 顯示名稱 描述
Guid {GUID} RFC 4122 中定義的全域唯一識別碼
數字 {N} 一或多個數字
日期/時間格式 {年份}{月}{天}{N} 我們支援各種日期/時間格式,但所有格式都以 {Year}[delimiter]{Month}[delimiter]{Day} 或一系列 {N} 表示。
4字節十六進制 {十六進制} 四位數的十六進制數字。
當地語系化 {LOC} BCP 47 中定義的語言標籤,支援 - 和 _ 名稱,例如 (en_ca 和 en-ca)

複雜圖案

模式名稱 顯示名稱 描述
火花路徑 {SparkPartitions} Spark 分割區檔案識別碼
日期 (yyyy/mm/dd) InPath {年}/{月}/{日} 跨越多個資料夾的年/月/日模式

資源集在整合式目錄中的顯示方式

當 Microsoft Purview 將資產群組比對至資源集時,它會嘗試擷取最有用的資訊,以作為目錄中的顯示名稱。 套用預設命名慣例的一些範例:

範例 1

限定名稱: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

顯示名稱:「火花輸出的名稱」

範例 2

限定名稱: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

顯示名稱:「我的分割資料」

範例 3

限定名稱: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

顯示名稱:「資料」

使用型樣規則自訂資源集分組

掃描儲存體帳戶時,Microsoft Purview 會使用一組已定義的模式來判斷資產群組是否為資源集。 在某些情況下,Microsoft Purview 的資源集群組可能無法準確反映您的數據資產。 這些問題可能包括:

  • 錯誤地將資產標示為資源集。
  • 將資產放入錯誤的資源集。
  • 錯誤地將資產標示為不是資源集。

若要自訂或覆寫 Microsoft Purview 偵測哪些資產分組為資源集的方式,以及它們在目錄中的顯示方式,您可以在 管理中心 定義模式規則。 如需逐步指示和語法,請參閱資源 集模式規則

資源集的已知限制

  • 依預設,只有在啟用 「進階資源集」 時,才會透過掃描刪除資源集資產。 如果此功能已關閉,則只能手動或透過 API 刪除資源集資產。

後續步驟

若要開始使用 Microsoft Purview,請參閱快速 入門:建立 Microsoft Purview 帳戶