本文提供傳統 Microsoft Purview 資料目錄中資料譜系功能的概觀。
若要在整合式目錄中檢視資料譜系,您必須先搜尋資料產品,然後檢視資料資產詳細資料。
Background
Microsoft Purview 的其中一個平臺功能是能夠顯示資料處理所建立之資料集之間的譜系。 Data Factory、Data Share 和 Power BI 等系統會在資料移動時擷取資料的譜系。 自訂譜系報告也透過 Atlas 掛鉤和 REST API 支援。
譜系集合
在 Microsoft Purview 中從企業數據系統收集的中繼資料會拼接,以顯示端對端數據譜系。 將譜系收集到 Microsoft Purview 的資料系統大致分為下列三種類型:
每個系統都支援不同層級的譜系範圍。 請檢查以下各節或您系統的個別譜系文章,以確認目前可用的譜系範圍。
已知限制
- 用作進程活動來源的資料庫檢視 (Azure Data Factory、Synapse Pipelines、Azure SQL 資料庫、Azure Data Share) 目前會擷取為 Microsoft Purview 中的資料庫資料表物件。 如果也掃描資料庫,則會在 Microsoft Purview 中個別探索檢視資產。 在此案例中,會在 Microsoft Purview 中擷取兩個具有相同名稱的資產,一個做為具有資料譜系的資料表,另一個做為檢視。
- 如果預存程序包含 drop 或 create 陳述式,則目前不會在譜系中擷取它們。
資料處理系統
數據整合和 ETL 工具可以在執行時將譜系推送至 Microsoft Purview。 Data Factory、Data Share、Synapse、Azure Databricks 等工具都屬於此類別的資料處理系統。 資料處理系統會參考資料集作為來自不同資料庫和儲存解決方案的來源,以建立目標資料集。 下表列出目前與 Microsoft Purview 整合的譜系數據處理系統清單。
| 數據處理系統 | 支援的範圍 |
|---|---|
| 氣流 | 氣流譜系 |
| Azure Data Share | 共用快照 |
| Azure Data Factory |
複製活動 資料流程活動 執行 SSIS 套件活動 |
| Azure SQL 資料庫 (預覽) | 預存程序執行的譜系擷取 |
| Azure Synapse Analytics |
複製活動 資料流程活動 |
資料儲存系統
Oracle、Teradata 和 SAP 等資料庫 & 儲存解決方案具有查詢引擎,可使用腳本語言轉換資料。 來自檢視/預存程式/等的資料譜系資訊會收集到 Microsoft Purview 中,並與來自其他系統的譜系拼接。 透過 Microsoft Purview 資料掃描,下列資料來源支援譜系。 從相應的文章中深入瞭解支援的譜系案例。
| 類別 | 資料來源 |
|---|---|
| Azure | Azure Databricks |
| Database | Cassandra |
| Db2 | |
| Google BigQuery | |
| 蜂巢中繼存放區資料庫 | |
| MySQL | |
| Oracle | |
| PostgreSQL | |
| Snowflake | |
| Teradata | |
| 服務和應用程式 | Erwin |
| Looker | |
| SAP ECC | |
| SAP S/4HANA |
數據分析和報告系統
Azure Machine Learning 和 Power BI 等資料分析和報告系統會將譜系報告到 Microsoft Purview。 這些系統將使用來自儲存體系統的資料集,並透過其中繼模型進行處理,以建立 BI 儀表板、ML 實驗等。
| 數據分析 & 報告系統 | 支援的範圍 |
|---|---|
| Power BI | 資料集、資料流程、報表 & 儀表板 |
開始使用譜系
Microsoft Purview 中的譜系包含資料集和進程。 資料集也稱為節點,而處理程序也可以稱為邊緣:
資料集 (節點) :資料集 (結構化或非結構化) 作為進程的輸入提供。 例如,SQL 資料表、Azure Blob 和檔案 (,例如 .csv 和 .xml) ,都被視為資料集。 在 Microsoft Purview 的譜系區段中,資料集會以矩形方塊表示。
Edge) (流程 :在資料集上執行的活動或轉換稱為流程。 例如,自動開發工具複製活動、Data Share 快照集等等。 在 Microsoft Purview 的譜系區段中,進程會以圓邊方塊表示。
若要存取 Microsoft Purview 中資產的譜系資訊,請遵循下列步驟:
透過下列方式開啟傳統 Microsoft Purview 治理入口網站:
- 直接 https://web.purview.azure.com 流覽並選取您的 Microsoft Purview 帳戶。
- 開啟 Azure 入口網站,搜尋並選取 Microsoft Purview 帳戶。 選取 [Microsoft Purview 治理入口網站] 按鈕。
在 Microsoft Purview 治理入口網站首 頁 上,搜尋資料集名稱或程式名稱,例如 ADF 複製或資料流程活動。 然後按 Enter。
從搜尋結果中,選取資產並選取其 譜系 索引標籤。
資產層級譜系
Microsoft Purview 支援資料集和程式的資產層級譜系。 若要查看資產層級譜系,請移至型錄中目前資產的 譜系索引 標籤。 選取目前的資料集資產節點。 依預設,屬於資料的資料行清單會顯示在左窗格中。
手動譜系
Microsoft Purview 中的資料譜系會 針對 內部部署、多雲端和 SaaS 環境中的許多資產自動化。 雖然我們繼續新增更多自動化來源,但手動譜系可讓您記錄尚不支援自動化的來源的譜系中繼資料,而無需使用任何程式碼。
若要為任何資產新增手動譜系,請遵循下列步驟:
在傳統資料目錄中搜尋您的資產,然後選取該資產以檢視詳細資料。
選取 [編輯],導覽至 [譜系 ] 索引標籤,然後選取底部面板中的 [ 新增手動譜系 ]。
若要設定資產譜系:
- 選取資產下拉式清單以從建議清單中尋找資產,或選取 檢視更多 以搜尋完整目錄。 選取您要連結的資產。
- 選取交換圖示,將關係方向 設定為下 游譜系) 產生 (或上游譜系) 耗 用 (。
- 如果您想刪除譜系,請選取垃圾桶圖示。
當您在兩個資料資產之間新增譜系時,您可以額外配置直欄層次譜系。 選取資料列開頭的展開圖示,從對應的下拉式清單中選取上游和下游資料行,以設定資料行對應。 選取加號圖示以新增更多資料行譜系;選取垃圾桶圖示以刪除現有的垃圾桶。
您可以再次選取 [新增手動譜系 ] 按鈕來新增更多資產層級譜系。 完成後,選取 [儲存] 按鈕以儲存您的譜系並結束編輯模式。
手動譜系的已知限制
- 目前的資產選擇器體驗一次只允許選取一項資產。
- 兩個資料資產之間的譜系目前支援直欄層次手動譜系,但當涉及處理程序資產時,不支援。
- 來源和目標資產都需要資料管理存取權。
- 這些資產類型目前不允許手動譜系,因為它們支援自動譜系:
- Azure Data Factory
- Synapse 管線
- Power BI 資料集
- Teradata 預存程序
- Azure SQL 預存程序
資料集資料行譜系
若要檢視資料集的資料行層級譜系,請移至目錄中目前資產的 譜系 索引標籤,然後遵循下列步驟:
進入譜系索引標籤後,在左窗格中,選取您要在資料譜系中顯示的每個欄旁邊的核取方塊。
將滑鼠停留在左窗格或譜系畫布資料集中的選取欄上,以查看欄對應。 所有資料行例項都會反白顯示。
如果欄數大於左窗格中可顯示的欄數,請使用篩選器選項依名稱選取特定欄。 或者,您可以使用滑鼠捲動清單。
如果譜系畫布包含更多節點和邊緣,請使用過濾器依名稱選取資料資產或處理節點。 或者,您可以使用滑鼠在譜系視窗周圍平移。
使用左窗格中的切換來反白譜系畫布中的資料集清單。 如果您關閉切換,則會顯示至少包含一個所選欄的任何資產。 如果您開啟切換,則只會顯示包含所有資料行的資料集。
處理資料行譜系
您也可以在目錄中檢視資料處理程序,例如複製活動。 例如,在此譜系流程中,選取複製活動:
複製活動將會展開,然後您可以選取 切換至資產 按鈕,這會為您提供有關程式本身的詳細資訊。
資料處理可以採用一或多個輸入資料集來產生一或多個輸出。 在 Microsoft Purview 中,資料行層級譜系適用於進程節點。
瀏覽譜系中的資產
選取 切換至資產 在任何 資產上,以從譜系檢視檢視其對應的中繼資料。 這樣做是從譜系視圖瀏覽至型錄中另一個資產的有效方法。
對於流行的數據集來說,譜系畫布可能會變得複雜。 為了避免混亂,預設檢視只會顯示焦點資產的五個層次譜系。 血統的其餘部分可以通過選擇血統畫布中的氣泡來擴展。 資料取用者也可以隱藏畫布中不感興趣的資產。 若要進一步減少混亂,請關閉「 更多譜系 」切換 在譜系畫布頂端。 此操作將隱藏血統畫布中的所有氣泡。
使用譜系畫布中的智慧按鈕來獲得譜系的最佳視圖:
- 全螢幕
- 縮放以適合
- 放大/縮小
- 自動對齊
- 縮放預覽
- 還有更多選項:
- 將目前的資產置中
- 重設為預設檢視
手動或使用 REST API 建置自訂譜系
Microsoft Purview 的其中一個重要平臺功能是能夠顯示資料處理程序所建立之資料集之間的譜系。 Data Factory、Data Share 和 Power BI 等系統會在資料移動時擷取資料的譜系。 在某些情況下,Purview 自動產生的譜系不完整或遺漏,無法進行實際視覺效果和/或企業報告。 在這些案例中,您可以在 Microsoft Purview 入口網站中手動建立自訂譜系專案,或透過 Apache Atlas 攔截和 REST API。 使用 REST API 來報告或建置自訂譜系的另一個主要好處是克服或減輕手動譜系所公開功能限制。
若要手動建置自定義譜系,您可以遵循此使用者指南: Microsoft Purview 中的手動譜系專案。
若要使用 REST API 在 Microsoft Purview 中建置自訂譜系,請遵循此使用者指南: Microsoft Purview - 使用 REST API 建置自訂譜系。
提示
在某些情況下,REST API 可以提供比透過入口網站手動建置譜系專案更多的輸入和自訂選項。