共用方式為


設定並執行資料品質掃描

資料品質掃描會根據其套用的資料 品質規則 檢閱您的資料資產,並產生分數。 您的資料管理員可以使用該分數來評估資料健康情況,並解決可能降低資料品質的任何問題。

必要條件

  • 若要執行及排程資料品質評量掃描,使用者需要 資料品質管理員角色
  • 目前,您可以將 Microsoft Purview 帳戶設定為允許公用存取或受控虛擬網路存取,以便執行資料品質掃描。

資料品質生命週期

資料品質掃描是資料資產資料品質生命週期第七個步驟。 前面的步驟是:

  1. Microsoft Purview 整合式目錄中指派使用者資料品質監護人許可權,讓他們可以使用所有資料品質功能。
  2. 在 Microsoft Purview 資料對應中註冊掃描數據源。
  3. 將資料資產新增至資料產品
  4. 設定資料來源連線,以準備資料來源以進行資料品質評估
  5. 設定並執行資料來源中資產的資料分析。
    1. 側寫完成時,請瀏覽資料資產中每一欄的結果,以瞭解資料的現行結構和狀態。
  6. 根據分析結果設定資料品質規則,並將其套用至您的資料資產。

支援的多雲端資料來源

瀏覽 支援的資料來源文件 ,以檢視支援的資料來源清單,包括資料分析和資料品質掃描的檔案格式,無論是否支援虛擬網路。

重要事項

Parquet 檔案的資料品質旨在支援:

  1. 具有 Parquet Part File 的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 請確定目錄/子目錄結構中沒有 {n} 個模式。 它必須是直接 FQN 導致 {SparkPartitions}。
  2. 具有分割的 Parquet 檔案的目錄,依資料集中的資料行進行分割,例如按年和月分割的銷售資料。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

支援這兩個基本案例,這些案例呈現一致的 Parquet 資料集架構。 限額: 它不是設計為或不會支援具有 Parquet 檔案的目錄的 N 個任意階層。 建議您以 (1) 或 (2) 建構結構呈現資料。

支援的驗證方法

目前,Microsoft Purview 只能使用 受控識別 作為驗證選項來執行數據品質掃描。 資料品質服務會在 Apache Spark 3.4Delta Lake 2.4 上執行。 如需支援區域的詳細資訊,請參閱 資料品質概觀

重要事項

  • 如果您更新資料來源上的綱目,則需要先重新執行資料對應掃描,才能執行資料品質掃描。 您也可以從資料品質概觀頁面使用結構描述匯入功能。
  • 在受控虛擬網路或私人端點上執行的資料來源不支援結構描述匯入。
  • Google BigQuery 不支援虛擬網路。

執行資料品質掃描

  1. 如果您尚未設定與 您要掃描的資產的資料品質的資料來源連線

  2. 在 [整合式目錄] 中,選取 [健康情況管理],然後選取 [資料品質]。

  3. 從清單中選取 治理網域

  4. 選取 資料產品 ,以評估連結至該產品之 資料資產 的資料品質。

  5. 選取資料資產的名稱,這會帶您前往資料品質概 頁面。

  6. 瀏覽現有的資料品質規則,並選取 [規則] 來新增規則。 選取 結構描述 來瀏覽資料資產的結構描述。 開啟或關閉您新增的規則。

  7. 在概觀頁面上選取 執行品質掃描 ,以執行品質掃描。

  8. 掃描執行時, 您可以從控管網域中的「資料品質監視」頁面追蹤其進度

排程資料品質掃描

雖然您可以選取 [執行品質掃描] 來臨機操作執行資料品質掃描,但在生產案例中,來源資料可能會持續更新。 您應該定期監控資料品質以偵測任何問題。 自動化掃描程序可協助您管理品質掃描的定期更新。

  1. 在 [整合式目錄] 中,選取 [健康情況管理],然後選取 [資料品質]。

  2. 從清單中選取 治理網域

  3. 選取 [管理],然後選取 [排程掃描]。

  4. 在建立 排程掃描 頁面上填寫表單。 新增您要設定排程的來源的 名稱說明

  5. 選取 [繼續]

  6. 範圍 標籤上,選取個別資料產品和資產,或整個控管網域的所有資料產品和資料資產。

  7. 選取 [繼續]

  8. 根據您的偏好設定排程,然後選取 [繼續]。

  9. 在 [ 檢閱 ] 索引標籤上,選取 [儲存 (] 或 [儲存並執行] 以立即進行測試,) 完成排程資料品質評定掃描。

您可以在 [掃描] 索引標籤下的 [資料品質工作監視] 頁面上監視排程的掃描。

注意事項

您無法在單一排程中跨所有資料產品新增超過 30 個資產。 為每批 30 個資產建立多個排程。 您可以設定為在同一時間範圍內執行多個排程。

刪除先前的資料品質掃描和歷程記錄

當您從資料產品移除資料資產時,如果該資料資產具有資料品質分數,您必須先刪除資料品質分數,然後從資料產品中移除資料資產。

當您刪除資料品質歷程記錄資料時,它會移除設定檔歷程記錄、資料品質掃描歷程記錄和資料品質規則,但不會刪除資料品質動作。

請遵循下列步驟,刪除資料資產的先前資料品質掃描:

  1. 在 [整合式目錄] 中,選取 [健康情況管理],然後選取 [資料品質]。
  2. 從清單中選取 治理網域
  3. 從清單中選取 資料產品
  4. 從清單中選取 資料資產 ,以導覽 資料品質概觀 頁面。
  5. 選取 [資料品質概觀] 頁面右上方的省略符號 (...) 。
  6. 選取 [刪除資料品質資料] 以刪除資料品質執行的歷程記錄。

注意事項

  • 針對測試執行、錯誤的資料品質執行,或您要從資料產品移除資料資產,請使用 [刪除資料品質資料 ]。
  • 系統最多可儲存 50 個資料品質分析及資料品質評估歷史記錄的快照。 如果您想要刪除特定快照,請選取所需的歷程記錄執行,然後選取刪除圖示。

結構描述匯入

如果結構描述中的資料類型未定義、定義不正確或來源中變更,您的資料品質工作可能會失敗。 如果失敗,請使用綱目匯入功能重新匯入綱目。 公用網路和私人端點後方的資料來源都支援結構描述匯入。 支援的資料來源列在 資料品質支援的資料來源和檔案格式中。 若要從資料來源匯入結構描述,請遵循下列步驟:

  • 健康管理中選取資料品質
  • 選取商務網域,然後選取資料產品,然後從該資料產品中選取資料資產。 您會到達資料品質概觀頁面。
  • 選取 結構描述,然後選取 結構描述管理 切換。
  • 選取 匯入結構描述 以匯入結構描述。

後續步驟