Microsoft Purview 資料對應 支援自動掃描本地部署、多雲及軟體即服務(SaaS) () 資料來源。
當你執行掃描時,程序會開始從註冊的資料來源擷取元資料。 掃描與策展過程結束時,你會獲得包含技術元資料的精選元資料。 這些元資料可以包含資料資產名稱,如資料表名稱或檔案名稱、檔案大小、欄位及資料沿革。 對於結構化資料來源,結構細節也會被擷取。 關聯式資料庫管理系統就是此類來源的例子。
策展流程會根據你設定的掃描規則集,自動對結構屬性套用分類標籤。 如果您的 Microsoft Purview 帳號連結至 Microsoft Purview 入口網站,則會套用敏感性標籤。
重要事項
如果你有任何 Azure 政策阻止更新儲存帳號,這些政策會在 Microsoft Purview 掃描過程中出錯。 請參閱「為 Microsoft Purview 建立 Azure 政策排除條款,以為 Microsoft Purview 帳號建立例外。」
為什麼你需要最佳實務來管理資料來源?
最佳實務能幫助你:
- 優化成本。
- 打造卓越的營運。
- 提升安全合規性。
- 提升效能效率。
註冊一個來源並建立連線
以下設計考量與建議將協助你註冊來源並建立連結。
設計考量
- 利用集合建立與組織策略相符的階層結構,例如地理位置、業務功能或資料來源。 階層定義了要註冊和掃描的資料來源。
- 設計上,你不能在同一個 Microsoft Purview 帳號中重複註冊資料來源。 此架構有助於避免對同一資料來源指派不同存取控制的風險。
設計建議
若多個團隊共用同一資料來源的元資料,請在母集合註冊並管理該資料來源。 接著,在每個子集合下建立對應的掃描。 如此一來,相關資產會出現在每個子集合下。 地圖檢視會將沒有父源的來源分成虛線框。 沒有箭頭把他們和父母連結起來。
如果你需要在雲端註冊多個來源,例如 Azure 訂閱或資源群組,請使用 Azure 多重選項。 欲了解更多資訊,請參閱以下文件:
註冊一個資料來源後,你可以多次掃描同一個來源。 不同的團隊或業務單位可能會以不同方式使用相同的來源。
欲了解更多如何定義註冊資料來源階層的資訊,請參閱集合 架構最佳實務。
掃描
以下設計考量與建議依掃描過程中的關鍵步驟組織。
設計考量
- 註冊資料來源後,設置掃描以管理自動化且安全的元資料掃描與整理。
- 掃描設定包括為每個掃描頻率唯一設定掃描名稱、掃描範圍、整合執行時、掃描觸發頻率、掃描規則集及資源集。
- 在建立任何憑證之前,請考慮你的資料來源類型和網路需求。 這些資訊有助於你決定需要哪種認證方式和整合執行時來滿足你的情境需求。
設計建議
在你將來源登記到相關 收藏後,請規劃並依照此範例所示的順序來設定掃描。 此流程安排有助於避免意外費用與重工。
從系統內建的分類規則中,找出你的分類要求。 或者根據需要建立特定的自訂分類規則。 根據特定產業、企業或區域性需求來制定,這些條件並非現成:
- 請參閱 分類最佳實務。
- 請參閱如何 建立自訂分類與分類規則。
在設定掃描前先建立掃描規則集。 在建立掃描規則集時,請確保以下幾點:
確認系統預設掃描規則集是否足夠適用於你掃描的資料來源。 否則,請定義你的自訂掃描規則集。
自訂掃描規則集可以同時包含系統預設和自訂規則,所以清除那些與你掃描的資料資產無關的選項。
必要時,建立自訂規則集以排除不想要的分類標籤。 例如,系統規則集包含全球通用的政府代碼模式,而不僅僅是美國。 您的資料可能與其他類型的模式相符,例如「比利時駕照號碼」。
將自訂分類規則限制在 最重要 且 相關的 標籤上,以避免雜亂。 你不想在資產上加上太多標籤。
如果你修改自訂分類或掃描規則集,就會觸發一次完整掃描。 適當配置分類與掃描規則集,以避免重做及昂貴的全掃描。
注意事項
當你掃描儲存帳號時,Microsoft Purview 會使用一組定義好的模式來判斷一組資產是否構成資源集。 你可以使用資源集模式規則來自訂或覆蓋 Microsoft Purview 如何偵測哪些資產被分組為資源集。 規則也決定資產在目錄中的展示方式。 欲了解更多資訊,請參閱 建立資源集模式規則。 此功能有成本考量。 詳情請參閱 Microsoft Purview 定價網站。
為已註冊的資料來源設置掃描。 - 掃描名稱:預設情況下,Microsoft Purview 使用命名慣例 SCAN-[A-Z][A-Z][A-Z],這在你試圖辨識已執行的掃描時並不有幫助。 使用有意義的命名規則。 例如,你可以將掃描 環境-來源-頻率-時間 命名為 DEVODS-Daily-0200。 此名稱代表每日0200小時的掃描。
認證:Microsoft Purview 依據資料來源類型提供多種掃描資料來源的認證方法。 可能是 Azure 雲端、本地端或非 Microsoft 來源。 依照以下偏好順序,依照認證方法遵循最低權限原則:
- Microsoft Purview MSI - 管理式服務身份 (,例如針對Azure Data Lake Storage Gen2來源)
- 使用者指派的管理身份
- 服務主體
- SQL 認證 (例如,針對本地端或Azure SQL來源)
- 例如,帳號金鑰或基本認證 (,例如 SAP S/4HANA 來源)
欲了解更多資訊,請參閱 管理憑證的操作指南。
注意事項
如果你為儲存帳號啟用防火牆,設定掃描時必須使用管理身份驗證方法。 當你建立新的憑證時,憑證名稱只能包含 字母、數字、底線和連字號。
整合執行時
- 欲了解更多資訊,請參閱 網路架構最佳實務。
- 若自架整合執行時 (SHIR) 被刪除,任何依賴它的持續掃描都會失敗。
- 使用 SHIR 時,請確保記憶體足夠用於你掃描的資料來源。 例如,當你使用 SHIR 掃描 SAP 來源時,若看到「記憶體不足錯誤」:
- 確保 SHIR 機器有足夠的記憶體。 建議用量是 128 GB。
- 在掃描設定中,將最大可用記憶體設定為適當的值,例如100。
- 欲了解更多資訊,請參閱 Scan to and Management SAP ECC Microsoft Purview 中的前置條件。
鏡掃描
- 設定掃描範圍時,只選擇在細緻層級或父層級相關的資產。 此做法確保掃描成本最佳且效能高效。 如果某個父資產被完全或部分勾選,所有未來資產都會自動被選中。
- 以下是一些資料來源的範例:
- 對於 Azure SQL 資料庫或 Data Lake Storage Gen2,你可以將掃描範圍設定到資料來源的特定部分。 在清單中選擇適當的項目,例如資料夾、子資料夾、集合或結構。
- 對於 Oracle、Hive Metastore Database 和 Teradata 來源,你可以指定一組特定的結構清單,透過分號分隔值或結構名稱模式匯出。
- 對於 Google Big 查詢,你可以指定一個特定的資料集清單,並以分號分隔的值匯出。
- 當你為整個 AWS 帳號建立掃描時,可以選擇特定的桶子來掃描。 當你為特定的 AWS S3 儲存桶建立掃描時,可以選擇特定的資料夾來掃描。
- 對於 Erwin,你可以提供一個以分號分隔的 Erwin 模型定位字串清單來進行掃描範圍。
- 對於 Cassandra,你可以指定一列特定的鍵位清單,透過分號分隔值或鍵空格的名稱模式來匯出。
- 對於 Looker,你可以提供一個以分號分隔的 Looker 專案清單來進行掃描範圍。
- 對於 Power BI 租戶,你可能只指定要包含或排除個人工作空間。
- 一般來說,在支援模式的地方使用 忽略模式 ,例如資料湖 (排除暫存、設定檔、關係資料庫管理系統資料表,或備份或 STG 資料表) 。
- 掃描文件或非結構化資料時,避免掃描大量此類文件。 掃描處理前 20 MB 的此類文件,可能導致掃描時間更長。
掃描規則集
- 當你選擇掃描規則集時,務必設定你之前建立的相關系統或自訂掃描規則集。 - 你可以建立自訂檔案類型並依序填寫細節。 目前,Microsoft Purview 在自訂分隔符中僅支援一個字元。 如果你在實際資料中使用自訂分隔符,例如 ~,你需要建立新的掃描規則集。
掃描類型與排程
- 你可以設定掃描程序執行全掃描或增量掃描。
- 掃描應在非營業時間或非尖峰時段執行,以避免來源過載。
- 初次掃描為全掃描,後續掃描為增量。 你可以將後續掃描排成定期的增量掃描。 了解更多支援的 排班選項。
- 掃描頻率應與資料來源或業務需求的變更管理時程相符。 例如:
- 如果來源結構可能每週變動,掃描頻率應該是同步的。變更包括資產中新增的資產或欄位,這些欄位被新增、修改或刪除。
- 若分類或敏感標籤需每週更新,或許出於法規考量,掃描頻率應為每週。 - 如果分割區檔案每週都會在來源資料湖中新增,你可以排程每月掃描。 你不需要每週排程掃描,因為元資料沒有變動。 此建議假設沒有新的分類情境。
- 掃描最長可持續七天,可能是因為記憶問題。 這段時間不包括口服過程。 如果七天內進度未更新,掃描將被標記為失敗。 目前目錄) (的攝取過程並沒有這樣的限制。
取消掃描
- 目前,只有當掃描狀態從「排隊中」轉為「進行中」時,你才能取消或暫停掃描。
- 取消個別兒童掃描並不被支援。
注意事項
- 如果您在掃描後從來源系統移除欄位、欄位、資料表或檔案,Microsoft Purview 只會在下一次排程的全掃描或增量掃描後顯示該移除。
- 你可以在 Microsoft Purview 目錄中選擇資產名稱下的 「刪除 」來刪除資產。 這個動作不會移除源體中的物件。 如果你對同一來源做完整掃描,掃描會重新將該物件放入目錄中。 如果你執行增量掃描,刪除的資產不會被撿起,除非物件在來源被修改。 例如,如果某欄從表格中新增或移除。
- 欲了解透過經典 Microsoft Purview 治理入口網站 手動 編輯資料資產或底層結構後,後續掃描的行為,請參閱 經典目錄資產細節。
- 欲了解更多資訊,請參閱 如何檢視、編輯及刪除資產。