資料分析是檢查不同資料來源中可用的資料並收集有關此資料的統計資料和資訊的過程。 資料分析可協助您根據一組定義的目標來評估資料的品質等級。 如果資料品質較差,或以無法整合以滿足組織需求的結構進行管理,則商務流程和決策會受到影響。 資料分析可讓您了解資料的可信度和質量,這是做出資料驅動決策的先決條件,從而增加收入並促進成長。
必要條件
- 若要執行及排程資料品質評量掃描,您的使用者必須處於 資料品質管理員角色。
- 目前,您可以將 Microsoft Purview 帳戶設定為允許公用存取或受控虛擬網路存取,以便執行資料品質掃描。
資料品質生命週期
資料分析是資料資產資料品質生命週期的第五個步驟。 前面的步驟是:
- 在整合式目錄中指派使用者 () 資料品質管理員權限,以使用所有資料品質功能。
- 在 Purview 數據地圖中註冊並掃描數據源。
- 將資料資產新增至資料產品
- 設定資料來源連線,以準備資料來源以進行資料品質評估。
支援的多雲端資料來源
瀏覽 支援的資料來源文件 ,以檢視支援的資料來源清單,包括資料分析和資料品質掃描的檔案格式,無論是否支援虛擬網路。
重要事項
Parquet 檔案的資料品質旨在支援:
- 具有 Parquet Part File 的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 請確定目錄或子目錄結構中沒有 {n} 個模式;它必須是直接 FQN 導致 {SparkPartitions}。 - 具有分割的 Parquet 檔案的目錄,依資料集中的資料行進行分割,例如按年和月分割的銷售資料。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
支援這兩個基本案例,這些案例呈現一致的 Parquet 資料集架構。 限額: 它不是設計為或不會支援具有 Parquet 檔案的目錄的 N 個任意階層。 建議您以 (1) 或 (2) 建構結構呈現資料。
支援的驗證方法
目前,Microsoft Purview 只能使用 受控識別 作為驗證選項來執行數據品質掃描。 資料品質服務會在 Apache Spark 3.4 和 Delta Lake 2.4 上執行。 如需支援區域的詳細資訊,請參閱 資料品質概觀。
重要事項
- 如果您更新資料來源上的綱目,則必須先重新執行資料對應掃描,才能執行資料分析。 您可以使用結構描述匯入功能,從資料品質概觀頁面匯入結構描述。 如果您的資料來源是在受控虛擬網路或私人端點上執行,則不支援結構描述匯入功能。
- Azure Databricks、Google BigQuery 和 Snowflake 不支援虛擬網路。
- 在目前版本中,您可以分析每個批次 50 個資料行。 如果您的資料資產有超過 50 個資料行,您可以在更多批次中分析額外的資料行。
- 如果資料行包含相異值,請勿分析該資料行。 具有不同值的資料行無法建立常態分佈。
設定資料分析工作的步驟
如果您尚未設定與 您要掃描的資產的資料品質的資料來源連線 。
從 Microsoft Purview 整合式目錄中,選取 [健康情況管理],然後選取 [資料品質]。
從清單中選取 治理網域 。
選取 資料產品 ,以分析連結至該產品的資料 資產 。
選取資料資產以導覽至資料品質 概觀 頁面以進行分析。
選取 [設定檔] 按鈕,以針對選取的資料資產執行分析工作。
AI 建議引擎會建議要執行資料分析的潛在重要資料行。 您可以取消選取建議的資料行和/或選取要分析的更多資料行。
選取相關資料行之後,請選取 [ 執行設定檔]。
當工作執行時, 您可以從控管網域中的資料品質監視頁面追蹤其進度。
工作完成後,從資產資料品質頁面的左側功能表中選取 設定檔 索引標籤,以列出瀏覽分析結果和統計快照。 可能有數個設定檔結果頁面,視您的資料資產具有多少欄而定。
瀏覽每個欄的分析結果和統計量值。
瞭解分析結果
- 最小值:資料行中字元的最小長度。
- 最大值:欄中字元的長度上限。
- 分佈:數據的常態分佈。
- 唯一值:不重複的值;他們是獨一無二的。
- 重複值:重複多次的值。
- 空白/空白值:資料行為空白或空白。
- Null:資料行中的 Null 值。
- 平均值:中間值或算術平均值。
- Standard deviation:量化一組值中的變異或離散量的統計量。
相關內容
- Fabric 資料資產的資料品質
- Fabric 鏡像資料來源的資料品質
- Fabric 捷徑資料來源的資料品質
- Azure Synapse 無伺服器和資料倉儲的資料品質
- Azure Databricks Unity 目錄的資料品質
- Snowflake資料來源的資料品質
- Google BigQuery 的資料品質
後續步驟
- 根據分析結果設定資料品質規則,並將其套用至您的資料資產。
- 在資料產品上設定並執行資料品質掃描,以評估資料產品中所有支援資產的品質。
- 檢閱您的掃描結果 ,以評估資料產品的目前資料品質。