本文提供傳統 Microsoft Purview 資料目錄中資料譜系的概觀。 它還詳細說明了資料系統如何與目錄整合以捕獲資料譜系。 Microsoft Purview 可以擷取組織數據資產不同部分中數據的譜系,以及不同準備層級的數據,包括:
- 從各種平台暫存的原始數據
- 轉換和準備的資料
- 視覺化平台使用的資料
如需整合式目錄中的資料譜系,請參閱如何檢視資料資產詳細資料和譜系資訊。
使用案例
資料譜系被廣泛理解為跨越資料來源的生命週期,以及資料在資料資產中隨時間移動的位置。 它用於不同類型的回溯案例,例如疑難排解、追蹤資料管線中的根本原因和偵錯。 譜系也用於資料品質分析、合規性和通常稱為影響分析的「假設」場景。 譜系以視覺化方式呈現,以顯示從來源移動到目的地的資料,包括資料的轉換方式。 鑑於大多數企業資料環境的複雜性,如果不對周邊資料點進行一些合併或遮罩,這些視圖可能很難理解。
傳統資料目錄中的譜系體驗
目錄與其他資料處理、儲存和分析系統連接,以擷取譜系資訊。 這些資訊會結合,以代表型錄中一般、特定於案例的譜系體驗。
您的資料資產可能包括執行資料擷取、轉換 (ETL/ELT 系統) 、分析和視覺化系統的系統。 每個系統都會擷取豐富的靜態和作業中繼資料,以描述系統界限內資料的狀態和品質。 資料目錄中譜系的目標是以盡可能低的粒度從每個資料系統擷取移動、轉換和作業中繼資料。
下列範例是資料在多個系統之間移動的典型使用案例,其中目錄會連線到每個系統以進行譜系。
- Data Factory 會將資料從內部部署/原始區域複製到雲端中的登陸區域。
- Synapse、Databricks 等資料處理系統會使用筆記本處理資料,並將其從登陸區域轉換成策劃區域。
- 將資料進一步處理成分析模型,以達到最佳查詢效能和彙總。
- 資料視覺化系統會使用資料集,並透過其中繼模型進行處理,以建立 BI 儀表板、ML 實驗等。
譜系粒度
下一節涵蓋 Microsoft Purview 收集譜系資訊的細微度的詳細數據。 此細微度可能會根據 Microsoft Purview 支援的資料系統而有所不同。
實體層級譜系:來源>處理目標>
- 譜系會以圖形表示,通常它包含資料儲存系統中的來源和目標實體,這些實體是由計算系統叫用的處理程序所連接。
- 資料系統會連線到型錄,以產生並報告參照基礎資料系統實體物件的唯一物件,例如:SQL 預存程序、筆記本等。
- 擷取具有其他中繼資料 (例如擁有權) 的高保真譜系,以人類可讀的格式顯示來源 & 目標實體的譜系。 例如:Hive 資料表層級的譜系,而不是分割區或檔案層級。
直欄或屬性層次譜系
識別用於在目標實體中建立或衍生屬性的來源實體屬性。 來源屬性的名稱可以在目標中保留或重新命名。 Azure Data Factory (ADF) 等系統可以從內部部署環境執行一對一複製到雲端。 例如:Table1/ColumnA -> Table2/ColumnA。
處理程序執行狀態
為了支援根本原因分析和資料品質案例,我們擷取資料處理系統中任務的執行狀態。 這項要求與取代其他資料處理系統的監控能力無關,目標也不是取代它們。
摘要
譜系是支援品質、信任和稽核案例的重要功能。 資料目錄的目標是建置健全的架構,讓環境中的所有資料系統都可以自然地連線並報告譜系。 一旦中繼資料可用,目錄就可以將資料系統提供的中繼資料整合在一起,以支援資料控管使用案例。