共用方式為


Microsoft Purview 整合式目錄中的資料品質概觀

Microsoft Purview 整合式目錄中的數據品質可讓治理網域和數據擁有者評估和監督其數據生態系統的品質,以促進有針對性的改善動作。 在當今人工智慧驅動的環境中,數據的可靠性直接影響人工智慧驅動的見解和建議的準確性。 如果沒有值得信賴的數據,就有可能削弱對人工智慧系統的信任並阻礙其採用。

資料品質差或資料結構不相容可能會阻礙業務流程和決策能力。 整合式目錄 中的資料品質透過讓使用者能夠使用無程式碼或低程式碼規則(包括開箱即用的 (OOB) 規則和 AI 產生的規則)來評估資料品質,從而解決這些挑戰。 這些規則會在資料行層級套用並彙總,以提供資料資產、資料產品和治理網域層級的分數,確保每個網域內資料品質的端對端可見度。

Microsoft Purview 中的資料品質也包含 AI 支援的資料分析功能,建議資料行進行分析,同時允許人工介入來精簡這些建議。 這種迭代過程不僅提高了數據分析的準確性,還有助於底層人工智慧模型的持續改進。

透過應用資料質量,組織可以有效地衡量、監控和提高其資料資產的質量,從而增強人工智慧驅動見解的可靠性,並增強對基於人工智慧的決策過程的信心。

資料品質生命週期

  1. 整合式目錄中指派使用者 () 資料品質管理員權限,以使用所有資料品質功能。
  2. 在 Microsoft Purview 資料對應中註冊掃描數據源。
  3. 將資料資產新增至資料產品
  4. 設定資料來源連線,以準備資料來源以進行資料品質評估
  5. 設定並執行資料來源中資產的資料分析。
    1. 側寫完成時,請瀏覽資料資產中每一欄的結果,以瞭解資料的現行結構和狀態。
  6. 根據分析結果設定資料品質規則,並將其套用至您的資料資產。
  7. 在資料產品上設定並執行資料品質掃描,以評估資料產品中所有支援資產的品質。
  8. 檢閱您的掃描結果 ,以評估資料產品的目前資料品質。
  9. 在資料資產的生命週期中定期重複步驟 5-8,以確保其維持品質。
  10. 持續監控您的資料品質
    1. 檢閱資料品質動作 以識別和解決問題。
    2. 設定資料品質通知 以提醒您品質問題。

支援的資料品質區域

下列區域目前支援資料品質。

支援的多雲端資料來源

檢視 支援的資料來源清單。

重要事項

Parquet 檔案的資料品質旨在支援:

  1. 具有 Parquet Part File 的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 請確定目錄和子目錄結構不包含 {n} 個模式。 相反地,請使用直接 FQN 導致 {SparkPartitions}。
  2. 具有分割的 Parquet 檔案的目錄,依資料集中的資料行進行分割,例如按年和月分割的銷售資料。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

支援這兩個基本案例,這些案例呈現一致的 Parquet 資料集架構。 限額: 資料品質並非設計為支援具有 Parquet 檔案的目錄任意階層。 建議您以 (1) 或 (2) 建構結構呈現資料。

目前,Microsoft Purview 只能使用 受控識別 作為驗證選項來執行資料品質掃描。 資料品質服務會在 Apache Spark 3.4Delta Lake 2.4 上執行。

資料品質功能

  • 資料來源連線設定
    • 設定連線,以允許 Microsoft Purview 資料品質 SaaS 應用程式具有資料的讀取存取權,以進行品質掃描和分析。
    • Microsoft Purview 會使用受控識別作為驗證選項。
  • 資料分析
    • AI 支援的資料分析體驗。
    • 業界標準統計快照 (分佈、最小值、最大值、標準差、唯一性、完整性、重複等) 。
    • 向下切入資料行層級分析量值。
  • 資料品質規則
    • 開箱即用的規則來衡量六個行業標準數據質量維度, (完整性、一致性、一致性、準確性、新鮮度和唯一性) 。
    • 自訂規則建立功能包括現成函數的數目和運算式值。
    • 自動生成規則,具有 AI 集成體驗。
  • 資料品質掃描
    • 選取規則並將其指派給資料品質掃描的資料行。
    • 在實體或資料表層級套用資料新鮮度規則,以測量資料新鮮度 SLA。
    • 排程時段的資料品質掃描工作 (每小時、每天、每週、每月等) 。
  • 資料品質作業監控
    • 啟用監控資料品質工作狀態 (作用中、已完成、失敗等) 。
    • 啟用瀏覽資料品質掃描歷史記錄。
  • 資料品質評分
    • 規則層級中的資料品質分數 (套用至直欄) 之規則的品質分數為何。
    • 資料資產、資料產品及治理網域的資料品質分數 (一個治理網域可以有許多資料產品,一個資料產品可以有許多資料資產,一個資料資產可以有許多資料欄) 。
  • 資料品質警示
    • 設定警示,以在資料品質臨界值未達到預期時通知資料擁有者和資料管理員。
    • 設定電子郵件別名或通訊群組,以傳送有關資料品質問題的通知。
  • 資料品質動作
    • 資料品質的動作中心,其中包含解決資料品質異常狀態的動作,包括資料品質管理員的診斷查詢,以將要針對每個異常狀態修正的特定資料歸零。
  • 資料品質受控虛擬網路
    • 由資料品質管理的虛擬網路,與私人端點連線到 Microsoft Azure 資料來源。

資料駐留和加密

Microsoft 受控儲存體帳戶會儲存資料品質中繼資料和分析摘要。 它會將它們儲存在與資料來源相同的區域中,因此資料落地會保持不變。 所有數據都經過加密。 Purview 資源提供者區域使用者資料存放區用於中繼資料。 它會處理所有加密,而且在所有 Purview 服務中都很常見。 如果您想要使用客戶管理的加密金鑰 (CMK) 來進一步控制資料加密,請使用個別程序。 深入瞭解 Microsoft Purview 客戶金鑰

資料品質運算定價

資料品質用量是根據資料控管處理單位 (DGPU) 隨用隨付計量計費。 詳細瞭解 如何計算資料品質的定價

限制

  • Google Big Query 尚不支援虛擬網路。

後續步驟

  1. 整合式目錄中指派使用者資料品質管理員權限,以便他們可以使用所有資料品質功能。
  2. 設定資料來源連線 ,以準備資料來源進行資料品質評量。
  3. 設定並執行資料來源中資產的資料分析。