本文概述了 Microsoft Purview 資料對應掃描與擷取功能。 這些功能將您的 Microsoft Purview 帳號與資料來源連結,並輸入資料地圖與整合式目錄,讓您能開始透過 Microsoft Purview 探索和管理資料。
- 掃描 可從 資料來源 擷取元資料並傳送至 Microsoft Purview。
-
擷取會處理來自以下兩者的整合式目錄中繼資料:
- 資料來源掃描——掃描後的元資料會加入資料地圖。
- 血統連結——轉換資源會將其來源、輸出與活動的元資料加入資料地圖。
掃描
在你 註冊 Microsoft Purview 帳號的資料來源後,掃描這些資料來源。 掃描過程會連接到資料來源,擷取技術元資料,如名稱、檔案大小、欄位等。 它也會為結構化資料來源擷取結構,對結構架構套用分類, 並在你的資料映射連接 Microsoft Purview 入口時套用敏感性標籤。 你可以立即觸發掃描程序,或排程定期執行,以保持 Microsoft Purview 帳號的最新狀態。
每次掃描時,你可以自訂流程,只掃描你需要的資訊,而非整個來源。
請選擇掃描的認證方式
Microsoft Purview 預設是安全的。 它不會直接儲存密碼或秘密,所以你需要為來源選擇一種認證方式。 你可以用多種方式驗證你的 Microsoft Purview 帳號,但並非所有方法都支援每個資料來源。
- 管理身份
- 服務主任
- SQL 認證
- Windows 驗證
- ARN 角色
- 委派認證
- 消費者金鑰
- 帳號金鑰或基本認證
盡可能使用受管理身份,因為它省去了為個別資料來源儲存和管理憑證的需求。 此方法可大幅減少您和團隊在設定及排除掃描認證問題上的時間。 當你為 Microsoft Purview 帳戶啟用管理身份時,該身份會在 Entra ID) 建立Microsoft Entra ID (,並綁定到你的帳戶生命週期。
掃描範圍
掃描來源時,你可以掃描整個資料來源,或只選擇特定實體 (資料夾或資料表) 掃描。 可用的選項取決於你掃描的來源。 你可以為一次性掃描和排程掃描定義這些選項。
例如,在建立並執行 Azure SQL 資料庫掃描時,你可以選擇要掃描哪些資料表,或選擇整個資料庫。
每個實體 (資料夾或表格) ,存在三種選擇狀態:完全選取、部分選取與未選取。 以下範例中,若您在資料夾階層中選擇 部門 1 ,部門 1 被視為已完全選取。 部門1的母公司,例如公司和範例,被視為部分選取,因為同一母公司下的其他實體 (例如部門2) 未被選取。 UI 上會用不同圖示代表具有不同選擇狀態的實體。
掃描後,很可能會在原始系統中新增資產。 預設情況下,如果該父資產在掃描時被完全或部分選取,則會自動選擇該父資產。 在前述範例中,選擇部門 1 並執行掃描後,資料夾 Department 1 或 Company 和 範例 資料夾下的新資產會在再次掃描時包含。
如下方圖片所示,一個切換按鈕讓使用者能控制新資產在部分選擇的父資產中自動包含。 預設情況下,切換功能會關閉,且部分選取父節點的自動包含行為會被關閉。 關閉開關後,像是公司和範例這類部分選取的父資產,在重新掃描時不會被包含;未來掃描只會包含部門 1 下的新資產。
如果開啟開關,當你再次掃描時,父資產會自動被選中,前提是該父資產已被全部或部分選取。 包含行為與引入切換前相同。
注意事項
- 切換按鈕的可用性取決於資料來源類型。 目前它已公開預覽,涵蓋包括 Azure Blob 儲存體、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure 檔案儲存體 以及前身為 SQL DW) (Azure 專用 SQL 池。
- 對於在切換啟用前建立或排程的掃描,切換狀態會被設定為 開啟 ,且無法更改。 對於在切換啟用後建立或排程的掃描,掃描儲存後切換狀態無法更改。 你需要建立一個新的掃描檔來改變切換狀態。
- 當切換關閉時,對於像 Azure Data Lake Storage Gen 2 這類儲存來源類型,掃描完成後,依來源類型瀏覽的體驗可能需要長達四小時才能完全開放。
已知限制
當切換關閉時:
- 部分選取父檔案下的檔案實體不會被掃描。
- 如果明確選取了所有屬於父實體的實體,該父實體視為完全選取,且在你再次掃描時,父資產下的新資產也會被包含在內。
自訂掃描等級
在資料地圖術語中,根據元資料範圍與功能,掃描分為三個不同層級:
- L1 掃描:擷取基本資訊與元資料,如檔案名稱、大小及完全限定名稱
- L2 掃描:擷取結構化檔案類型與資料庫資料表的結構
- L3 掃描:在適用時擷取結構,並將取樣檔案置於系統及自訂分類規則之下
當你設定新的掃描或編輯現有掃描時,可以自訂支援掃描層級設定的資料來源的掃描層級。
預設情況下,會選擇「自動偵測」,這表示 Microsoft Purview 會對此資料來源套用最高掃描等級。 以 Azure SQL 資料庫為例,當掃描執行時,「自動偵測」會被解析為「三級」,因為該資料來源已在 Microsoft Purview 支援分類。 掃描執行細節中的掃描等級顯示實際應用的等級。
對於所有在自訂掃描等級為新功能前完成的掃描紀錄,掃描等級都會設定並顯示為 自動偵測。
當資料來源有較高掃描等級時,已儲存或排程且掃描等級設定為 自動偵測 的掃描會自動套用新的掃描等級。 例如,若某資料來源啟用新特性分類,該資料來源的所有現有掃描會自動套用分類。
掃描等級設定會顯示在每次掃描執行的監控介面中。
若選擇 Level-1,掃描僅回傳基本技術元資料,如資產名稱、資產大小、修改後的時間戳記等,基於特定資料來源的現有元資料可用性。 對於 SQL Database,這個流程會在 Data Map 中建立像是資料表的資產實體,但不會擷取資料表結構。 (注意:如果使用者在來源系統) 中擁有 必要的權限 ,仍可透過即時檢視查看資料表結構。
如果你選擇 Level-2,掃描會回傳表格結構和基本技術元資料,但不會進行資料取樣和分類。 對於 Azure SQL 資料庫,資料表資產實體會擷取表格結構,但不包含分類資訊。
選擇 Level-3 時,掃描會進行資料抽樣與分類。 這是 Azure SQL 資料庫掃描的標準配置,在引入新功能掃描層級前使用。
如果你將排程掃描設定為較低的掃描等級,之後又修改到更高的掃描等級,下一次掃描會自動執行完整掃描,並更新所有來自資料來源的現有資料資產,並以較高掃描等級設定引入的元資料。 例如,當你將 Azure SQL 資料庫的排程掃描集改為 Level 2 時,下一次掃描會是完整掃描,並更新所有現有的 Azure SQL 資料庫資料表和檢視資產,並附上分類資訊。 此後所有掃描均以 Level-3 設定的增量掃描形式恢復。
如果你將排程掃描設定為較高的掃描層級,之後又修改到較低的掃描層級,下一次掃描執行仍會繼續執行增量掃描,且所有來自資料來源的新資料資產中,只有較低掃描層級設定才會引入元資料。 例如,當你將 Azure SQL 資料庫的排程掃描集改為 Level 3 時,下一次掃描是增量掃描,所有新增的 Azure SQL 資料庫資料表和檢視資產都沒有分類資訊。 所有現有資料資產仍保留從前一組掃描產生的分類資訊,並由 Level-3 進行。
注意事項
- 目前可用於以下資料來源的掃描層級自訂:Azure SQL Database、Azure SQL 受控執行個體、Azure Cosmos DB for NoSQL、適用於 PostgreSQL 的 Azure 資料庫、適用於 MySQL 的 Azure 資料庫,Azure Data Lake Storage Gen2、Azure Blob 儲存體、Azure 檔案儲存體、Azure Synapse Analytics、Azure Dedicated SQL pool (前身為 SQL DW) 、Azure Data Explorer、Dataverse 等Azure多重 (Azure 訂閱) 、Azure多重 (Azure 資源群組) 、Snowflake、Azure Databricks Unity 目錄
- 目前此功能僅在 Azure 整合執行時及受管虛擬網路整合執行時 v2 上提供。
掃描規則集
掃描規則集決定掃描在與你的來源競爭時,會尋找哪種資訊。 可用的規則取決於你掃描的來源類型,但也包括你應該掃描的檔案類型,以及你需要的分類類型。
許多資料來源類型已經有 系統掃描規則集,但你也可以 自行建立掃描規則集 ,針對你的組織量身打造掃描內容。
預約掃描
Microsoft Purview 讓你可以選擇每天、每週或每月在特定時間掃描。 了解更多支援的 排班選項。 對於結構正在開發或經常變動的資料來源,每日或每週掃描可能更適合。 每月掃描更適合變動不頻繁的資料來源。 與你想掃描的原始碼管理員合作,找出原始碼運算需求較低的時段。
掃描如何偵測已刪除的資產
Microsoft Purview 目錄只有在執行掃描時才會知道資料儲存的狀態。 為了讓目錄知道檔案、資料表或容器是否被刪除,它會將最後一次掃描輸出與當前掃描輸出進行比較。 舉例來說,假設你上次掃描 Azure Data Lake Storage Gen2 帳號時,裡面有一個名為 folder1 的資料夾。 當同一個帳號再次掃描時, 資料夾1 不見了。 因此,目錄假設該資料夾已被刪除。
提示
由於已刪除檔案的偵測方式,你可能需要多次成功掃描才能偵測並解決已刪除的資產。 如果整合式目錄無法在有範圍掃描時登錄刪除,請嘗試多次完整掃描來解決問題。
偵測已刪除檔案
偵測遺失檔案的邏輯適用於同一使用者及不同使用者的多次掃描。 舉例來說,假設使用者在 Data Lake Storage Gen2 資料夾的 A、B 和 C 資料夾上執行一次掃描。之後,同一帳號中的另一位使用者會對同一資料儲存庫的 C、D 和 E 資料夾執行不同的一次性掃描。 由於資料夾 C 被掃描了兩次,目錄會檢查是否有可能被刪除的部分。 然而,資料夾 A、B、D 和 E 只掃描過一次,目錄也不會檢查是否有刪除的資產。
為了避免刪除檔案進入你的目錄,定期掃描非常重要。 掃描間隔很重要,因為目錄無法偵測刪除資產,除非執行另一次掃描。 所以,如果你每個月在某個商店掃描一次,目錄在你一個月後執行下一次掃描前,無法偵測該商店中任何已刪除的資料資產。
當你像Data Lake Storage Gen2這樣列舉大型資料庫時,有多種方式 (包括列舉錯誤和遺漏事件) 漏掉資訊。 某次掃描可能會錯過檔案的建立或刪除。 所以,除非目錄確定某個檔案被刪除,否則它不會從目錄中刪除。 這種策略意味著當掃描資料庫中不存在的檔案仍然存在於目錄中時,可能會出錯。 在某些情況下,資料儲存可能需要掃描兩到三次,才能捕捉到某些已刪除的資產。
注意事項
- 標記為刪除的資產在成功掃描後會被刪除。 刪除的資產可能會在你的目錄中持續可見一段時間,直到被處理並移除。
- 刪除偵測僅支援 Microsoft Purview 內的這些來源:Azure Synapse Analytics workspaces、Azure Arc 啟用的 SQL Server、Azure Blob 儲存體、Azure 檔案儲存體、Azure Cosmos DB、Azure Data explorer,適用於 MySQL 的 Azure 資料庫、適用於 PostgreSQL 的 Azure 資料庫、Azure Dedicated SQL pool、Azure Machine Learning、Azure SQL Database, 以及 Azure SQL Managed instance. 對於這些來源,當資產從資料來源中刪除時,後續掃描會自動移除 Microsoft Purview 中的相應元資料與血統。
攝取
擷取是將資料地圖透過各種流程收集的元資料填充的過程。
注意事項
所有子物件 (被指涉實體) 及聯絡人 (擁有者、專家) 的總數不得超過20,000個實體。
掃描資料的攝取
掃描過程會識別技術中繼資料或分類,並將其送入資料擷取。 擷取會分析掃描的輸入, 套用資源集模式,填充可用的 血統 資訊,然後自動載入資料映射。 你只能在資料擷取完成後,發現或整理資產與結構。 如果你的掃描完成了,但在資料地圖或目錄中看不到你的資產,你需要等待擷取流程完成。
從血統連結中吸收
你可以將像 Azure Data Factory 和 Azure Synapse 這類資源連接到 Microsoft Purview,將資料來源和血統資訊帶入 Data Map。 例如,當你在你連接到 Microsoft Purview 的 Azure Data Factory 執行複製管線時,服務會擷取關於輸入來源、活動和輸出來源的元資料。 這些資訊會被加入資料地圖。
如果你透過掃描將資料來源加入資料地圖,該活動的系譜資訊會被加入現有來源。 如果你還沒把資料來源加入 Data Map,血統攝取過程會把它和血緣資訊一起加入根集合。
欲了解更多可用的血統連結資訊,請參閱 血統使用者指南。
後續步驟
欲了解更多資訊或特定掃描說明,請點擊以下連結。