本文說明將 Azure Data Factory 帳戶與 Microsoft Purview 帳戶連線,以追蹤資料譜系和擷取資料來源所需的步驟。 本文也會說明活動涵蓋範圍和支援的譜系模式的詳細資料。
當您將 Azure Data Factory 連線到 Microsoft Purview 時,每當執行支援的 Azure Data Factory 活動時,活動來源資料、輸出資料和活動的中繼資料都會自動內嵌至 Microsoft Purview 資料對應。
如果資料來源已掃描且存在於資料對應中,則擷取程式會將 Azure Data Factory 的譜系資訊新增至該現有來源。 如果來源或輸出不存在於資料對應中,且受到 Azure Data Factory 譜系的支援,Microsoft Purview 會自動將其中繼資料從 Azure Data Factory 新增至根集合下的資料對應。
這可能是在使用者使用 Azure Data Factory 移動和轉換資訊時監視資料資產的絕佳方式。
檢視現有的 Data Factory 連線
多個 Azure 數據處理站可以連線到單一 Microsoft Purview 來推送譜系資訊。 目前限制可讓您一次從 Microsoft Purview 管理中心連線最多 10 個 Data Factory 帳戶。 若要顯示連線至 Microsoft Purview 帳戶的 Data Factory 帳戶清單,請執行下列動作:
選取左側導覽窗格中的 [ 管理 ]。
在 [譜系連線] 底下,選取 [Data Factory]。
Data Factory 連線清單隨即出現。
請注意 連線狀態的各種值:
- 已連線:Data Factory 已連線到 Microsoft Purview 帳戶。
- 已中斷連線:Data Factory 可以存取目錄,但已連線到另一個目錄。 因此,資料譜系不會自動報告給目錄。
- 未知:目前的使用者無法存取 Data Factory,因此連線狀態為未知。
注意事項
若要檢視 Data Factory 連線,您必須獲指派下列角色。 不支援從管理群組繼承角色。 集合管理員 在根集合上的角色。
建立新的 Data Factory 連線
注意事項
若要新增或移除 Data Factory 連線,您必須獲指派下列角色。 不支援從管理群組繼承角色。 集合管理員 在根集合上的角色。
此外,它要求使用者是數據處理站的「擁有者」或「參與者」。
您的數據處理站必須啟用系統指派的受控識別。
請遵循下列步驟,將現有的數據處理站連線到您的 Microsoft Purview 帳戶。 您也可以 從 ADF 將 Data Factory 連線到 Microsoft Purview 帳戶。
選取左側導覽窗格中的 [ 管理 ]。
在 [譜系連線] 底下,選取 [Data Factory]。
在 [Data Factory 連線 ] 頁面上,選取 [ 新增]。
從清單中選取您的 Data Factory 帳戶,然後選取 [確定]。 您也可以依訂閱名稱進行篩選,以限制您的清單。
如果數據處理站已連線到目前的 Microsoft Purview 帳戶,或資料處理站沒有受控識別,則可能會停用某些 Data Factory 執行個體。
如果任何選取的數據處理站已連線到其他 Microsoft Purview 帳戶,則會顯示警告訊息。 當您選取 [確定] 時,Data Factory 與其他 Microsoft Purview 帳戶的連線將會中斷連線。 無需其他確認。
注意事項
我們支援一次新增最多 10 個 Azure Data Factory 帳戶。 如果您想要新增超過 10 個數據處理站帳戶,請分多個批次執行此動作。
驗證的運作方式
數據處理站的受控識別可用來驗證從數據處理站推送至 Microsoft Purview 的譜系推送作業。 當您將數據處理站連線到 UI 上的 Microsoft Purview 時,它會自動新增角色指派。
在 Microsoft Purview 根集合上授與數據處理站的受控識別資料策展人角色。 深入瞭解 Microsoft Purview 中的存取控制 ,以及 透過集合新增角色和限制存取權。
移除 Data Factory 連線
若要移除 Data Factory 連線,請執行下列動作:
監視 Data Factory 連結
在 Microsoft Purview 治理入口網站中,您可以 監視 Data Factory 連結。
支援的 Azure Data Factory 活動
Microsoft Purview 會從下列 Azure Data Factory 活動擷取執行階段譜系:
重要事項
如果來源或目的地使用不支援的資料儲存體系統,Microsoft Purview 會捨棄譜系。
Data Factory 與 Microsoft Purview 之間的整合僅支援 Data Factory 支援的資料系統子集,如下列各節所述。
複製活動支援
| 資料存放區 | 支援 |
|---|---|
| Azure Blob 儲存體 | 是 |
| Azure 認知搜尋 | 是 |
| Azure Cosmos DB for NoSQL * | 是 |
| 適用於 MongoDB 的 Azure Cosmos DB * | 是 |
| Azure Data Explorer * | 是 |
| Azure Data Lake Storage Gen1 | 是 |
| Azure Data Lake Storage Gen2 | 是 |
| 適用於 MariaDB 的 Azure 資料庫 * | 是 |
| 適用於 MySQL 的 Azure 資料庫 * | 是 |
| 適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
| Azure 檔案 | 是 |
| Azure SQL 資料庫 * | 是 |
| Azure SQL 受控執行個體 * | 是 |
| Azure Synapse Analytics * | 是 |
| Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
| Azure 資料表儲存體 | 是 |
| Amazon S3 | 是 |
| 蜂巢* | 是 |
| 神諭* | 是 |
| 連線至 SAP ECC 或 SAP S/4HANA) 時 ( 的 SAP 表格 | 是 |
| SQL Server * | 是 |
| 泰拉數據 * | 是 |
* Microsoft Purview 目前不支援譜系或掃描的查詢或預存程式。 譜系僅限於表格和視圖來源。
如果您使用自我裝載 Integration Runtime,請注意具有譜系支援的最小版本:
- 任何使用案例:5.9.7885.3 版或更新版本
- 從 Oracle 複製資料:5.10 版或更新版本
- 透過 COPY 命令或 PolyBase 將資料複製到 Azure Synapse Analytics:5.10 版或更新版本
複製活動譜系的限制
目前,如果您使用下列複製活動功能,則尚不支援沿用:
- 使用二進位格式將資料複製到 Azure Data Lake Storage Gen1。
- 二進位、分隔文字、Excel、JSON 和 XML 檔案的壓縮設定。
- Azure SQL 資料庫、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server 和 SAP 資料表的來源分割區選項。
- 將資料複製到檔案型接收器,並設定每個檔案的最大列數。
- 當來源/接收已 設定資源時,複製活動目前不支援資料行層級譜系。
除了譜系之外,資料資產結構描述 (顯示在資產 -> 結構描述索引標籤) 中,針對下列聯結器報告:
- Azure Blob、Azure 檔案儲存體、ADLS Gen1、ADLS Gen2 和 Amazon S3 上的 Azure 檔案儲存體 CSV 和 Parquet 檔案
- Azure Data Explorer、Azure SQL 資料庫、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server、Teradata
資料流程支援
| 資料存放區 | 支援 |
|---|---|
| Azure Blob 儲存體 | 是 |
| Azure Cosmos DB for NoSQL * | 是 |
| Azure Data Lake Storage Gen1 | 是 |
| Azure Data Lake Storage Gen2 | 是 |
| 適用於 MySQL 的 Azure 資料庫 * | 是 |
| 適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
| Azure SQL 資料庫 * | 是 |
| Azure SQL 受控執行個體 * | 是 |
| Azure Synapse Analytics * | 是 |
| Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
* Microsoft Purview 目前不支援譜系或掃描的查詢或預存程式。 譜系僅限於表格和視圖來源。
資料流程譜系的限制
- 資料流程譜系可能會產生資料夾層級 資源集 ,而無法查看相關檔案。
- 當來源/接收已 設定資源時,目前不支援資料行層級譜系。
- 針對資料流程活動的譜系,Microsoft Purview 僅支援顯示所涉及的來源和接收。 目前不支援資料流程轉換的詳細譜系。
- 當 流程 是資料流的一部分時,不支援譜系。
- 目前 Purview 不支援 Synapse 資料表 (LakeHouse DB/Workspace DB 的譜系報告)
執行 SSIS 套件支援
請參閱 支援的資料存放區。
存取受保護的 Microsoft Purview 帳戶
如果您的 Microsoft Purview 帳戶受到防火牆保護,請瞭解如何讓 Data Factory 透過 Microsoft Purview 私人端點存取 受保護的 Microsoft Purview 帳戶 。
將 Data Factory 譜系帶入 Microsoft Purview
如需端對端逐步解說,請遵循 教學課程:將 Data Factory 譜系資料推送至 Microsoft Purview。
支援的譜系模式
Microsoft Purview 支援數種譜系模式。 產生的譜系資料是以 Data Factory 活動中使用的來源和接收類型為基礎。 雖然 Data Factory 支援超過 80 個來源和接收,但 Microsoft Purview 僅支援子集,如支援的 Azure Data Factory 活動中所列。
若要設定 Data Factory 以傳送譜系資訊,請參閱開始使用 譜系。
在譜系檢視中尋找資訊的其他一些方式包括:
- 在 譜系 索引標籤中,將滑鼠停留在圖形上,以預覽工具提示中資產的其他相關資訊。
- 選取節點或邊緣,以查看其所屬的資產類型,或切換資產。
- 資料集的欄會顯示在 [譜系 ] 索引標籤的左側。如需資料行層級譜系的詳細資訊,請參閱 資料集資料行譜系。
1:1 作業的資料譜系
擷取資料譜系的最常見模式是將資料從單一輸入資料集移至單一輸出資料集,中間有一個程序。
此模式的範例如下:
- 1 個來源/輸入: 客戶 (SQL 資料表)
- 1 個接收/輸出: Customer1.csv (Azure Blob)
- 1 個進程:CopyCustomerInfo1#Customer1.csv (Data Factory 複製活動)
具有 1:1 譜系和萬用字元支援的資料移動
擷取譜系的另一個常見案例是使用萬用字元將檔案從單一輸入資料集複製到單一輸出資料集。 萬用字元可讓複製活動比對多個檔案,以便使用檔案名稱的通用部分進行複製。 Microsoft Purview 會針對對應的複製活動所複製的每個個別檔案擷取檔案層級譜系。
此模式的範例如下:
- 來源/輸入: CustomerCall*.csv (ADLS Gen2 路徑)
- 接收/輸出: CustomerCall*.csv (Azure Blob 檔案)
- 1 個進程:CopyGen2ToBlob#CustomerCall.csv (Data Factory 複製活動)
具有 n:1 譜系的資料移動
您可以使用資料流程活動來執行合併、聯結等資料作業。 多個來源資料集可用來產生目標資料集。 在此範例中,Microsoft Purview 會將個別輸入檔案的檔案層級譜系擷取至屬於資料流程活動一部分的 SQL 資料表。
此模式的範例如下:
- 2 個來源/輸入: Customer.csv、 Sales.parquet (ADLS Gen2 路徑)
- 1 接收/輸出:公司資料 (Azure SQL 表格)
- 1 個進程: DataFlowBlobsToSQL (Data Factory 資料流程活動)
資源集的譜系
資源集是型錄中的邏輯物件,代表基礎儲存體中的許多分割區檔案。 如需詳細資訊,請參閱 瞭解資源集。 當 Microsoft Purview 從 Azure Data Factory 擷取譜系時,它會套用規則來正規化個別分割區檔案,並建立單一邏輯物件。
在下列範例中,Azure Data Lake Gen2 資源集是從 Azure Blob 產生:
- 1 個來源/輸入: Employee_management.csv (Azure Blob)
- 1 個接收/輸出: Employee_management.csv( Azure Data Lake Gen 2)
- 1 個進程:CopyBlobToAdlsGen2_RS (數據工廠複製活動)