共用方式為


自助分析與洞察

自助分析與洞察指的是讓企業用戶能夠獨立存取、分析並產生洞察的資料、工具與平台。 Microsoft Purview 資料治理將元資料的領域模型發佈到 Microsoft Fabric OneLake 和 Microsoft Azure Data Lake Storage Gen2,讓你能透過自有工具和運算來分析並產生洞見。 自助式分析資料治理中繼資料對於推動您的資料資產健康管理持續改進及透過民主化資料資產洞察與健康管理,促進組織中以數據為驅動的文化具有重要價值。

主要元件

  • 資料模型: 3NF 模型,包含領域與維度細節。
  • 元資料: 資料治理元資料包括:
    • 治理領域
    • 資料產品
    • 資料資產
    • 詞彙表術語
    • 訂閱申請
    • 資料品質規則
    • Dimensions
    • 資料品質事實 (通過與不通過)
    • 資料健康行動 (包括資料品質行動)
    • 還有更多

優點

  • 賦權: 賦能資料從業人員、資料產品負責人、資料管理員及分析師,探索資料治理的元資料,並連結來自多元來源的元資料以獲取洞見。
  • 彈性與效率: 在健康管理中,除了現成的報告外,還能建立自訂報告。
  • 敏捷性: 讓您的組織能更迅速地回應健康管理問題及補救措施。
  • 成本效益: 減少了建立平台和建構工具的需求。 所有資料皆可在 OneLake 取得,且可使用現有工具 (Fabric 語意模型、Microsoft Power BI報告、資料流及筆記本) 。

目前可取得的報告 (開箱)

以下是可用的開箱即用報告。 這些報告無法自訂。

  • 經典資產 ——依類型與收藏概覽資產及其策展狀態。
  • 經典目錄採用——一目了然地了解整合式目錄的使用情況。 你的詞彙表,提供術語及其狀態的快照。
  • 經典分類 ——資產分類及其分類類型概述。
  • 經典資料管理 ——資產分類概述及其分類類型。
  • 經典詞彙表 ——健康與詞彙表術語的使用。
  • 經典敏感度標籤 ——介紹已套用敏感標籤的資產及其標籤類型。
  • 資料治理 ——資料治理健康報告讓你的團隊能一目了然地追蹤健康進展,並找出需要加強的領域。
  • 資料品質健康 - 資料品質維度與資料品質規則績效報告。

自助分析元資料的資料模型

3NF 領域模型是關聯式資料庫設計中正規化過程的一部分。 它確保資料庫無冗餘及更新異常。 若資料庫結構符合第一及第二標準形式的需求,且其所有屬性功能僅依賴主鍵,則稱為第三正規形。 使用3NF領域模型來結構化資料,減少重複並確保資料完整性。 它著重於將資料拆解成較小且相關的表格,每個資訊只儲存一次。

特徵:

  • 消除傳遞依賴關係:非鍵屬性不應依賴其他非鍵屬性。
  • 邏輯分組:資料根據其功能或意義邏輯地分組到不同領域。
  • Entity-Relationship ERDs () 圖:常用來表示三NF領域模型,展示實體之間的關係。
表格名稱 表格中儲存了什麼 關係鍵
存取政策配置狀態 關於配置狀態的資訊 ProvisioningStateId
存取政策資源類型 存取政策資源資訊 資源類型ID
存取政策集 關於存取政策、政策使用案例細節,以及政策適用的整體資訊 AccessPolicySetId (UniqueId) , ResourceTypeID (FK) , ProvisioningStateID (FK)
商業領域* 商業網域 (名稱、描述、狀態及所有權細節中整合式目錄) 稱為「治理領域」 父商業網域 ID (FK) ,由使用者 ID 建立, (FK) ,最後修改為使用者 ID (FK)
分類 資料資產分類資訊 分類ID
關鍵資料欄 在此欄位中儲存與資料資產欄位相關的詞彙表 關鍵資料欄位 ID、商業領域 ID、資產 ID
關鍵資料元素 資料資產的關鍵資料元素 關鍵資料元素 ID
自訂存取使用案例 存取使用案例資訊 AccessPolicySetId
資料資產 資料資產名稱、描述與來源資訊 DataAssetID (UniqueID) 、DataAssetTypeID (FK) 、CreatedByUserID (FK) 、LastModifiedByUserID (FK)
資料資產欄位 資料資產欄位名稱、欄位描述與參考資料 DataAssetId (FK) 、ColumnId (唯一) 、DataAssetTypeID (FK) 、DataTypeID (FK) 、由使用者 ID 建立 (FK) 、最後修改使用者 ID (FK)
資料資產欄位分類指派 資料分類指派相關參考鍵 DataAssetID (FK) ,ColumnId (FK) ,ClassificationID (FK)
資料資產欄位關鍵資料元素指派 與關鍵資料元素相關的資料資產欄位 欄位ID
資料資產領域指派 資料資產治理領域分配相關資訊 DataAssetId (FK) , BusinessDomainID (FK) , AssignedByUserID (FK)
資料資產擁有者 資料資產擁有者資訊 DataAssetOwnerID
資料資產擁有者指派 資料資產擁有者指派資訊 DataAssetId, DataAssetOwnerId
資料資產類型資料型別 資料資產類型資訊 DataTypeId (UniqueId) , DataAssetTypeId (FK)
資料產品 資料產品名稱、描述、使用案例、狀態及其他相關資訊 DataProductId (UniqueId) , DataProductTypeId (FK) , DataProductStatusID (FK) , UpdateFrequencyId (FK) , CreatedByUserID (FK) , LastUpdatedByUserID (FK)
資料產品資產分配 資料產品與資料資產指派資訊 DataProductId, DataAssetId
資料產品業務領域指派 資料產品與治理領域指派資訊 DataProductID (FK) , BusinessDomainID (FK) , AssignedByUserID (FK)
資料產品關鍵資料元素指派 關鍵資料元素指派至資料產品 DataProductID
資料產品文件 資料產品文件、參考資訊儲存在此表格中。 DataProductId, DocumentationId
資料產品 OKR 指派 將目標與關鍵結果分配給資料產品 資料產品 ID、目標 ID、關鍵結果 ID
資料產品負責人 資料產品負責人資訊 DataProductId, DataProductOwnerId
資料產品狀態 資料產品狀態 (如已發表或草稿) 相關資訊 DataProductStatusId
資料產品使用條款 資料產品使用條款資訊 DataProductId, TermOfUsedId, DataAssetId
資料產品類型 關於資料產品類型的資訊,例如主產品、參考或操作 DataProductTypeId
資料產品更新頻率 關於該資料產品的資料更新頻率的資訊 更新頻率ID
資料品質資產規則執行 資料品質掃描結果 RuleId (FK) ,DataAssetID (FK) ,JobExecutionID (FK)
資料品質工作執行 資料品質工作執行狀態 JobExecutionID (UniqueId)
資料品質規則 關於資料品質規則的資訊 RuleID (UniqueID) 、RuleTypeID (FK) 、BusinessDomainID (FK) 、DataProductID (FK) 、DataAssetID (FK) 、JobTypeDisplayName (FK) 、RuleOriginDisplayName (FK) 、RuleTargetObjectType (FK) 、CreatedByUserID (FK) 、LastUpdatedByUserID (FK)
資料品質規則欄位執行 關於資料品質規則通過與失敗計數、欄位層級的資料品質分數,以及資料品質工作執行細節的資訊 RuleId (FK) 、DataAssetId (FK) 、ColumnId (FK) 、JobExecutionID (FK)
資料品質規則類型 資料品質規則類型及相關維度 RuleTypeID (UniqueID) , DimensionDisplayName (FK)
資料訂閱申請 有關資料訂閱者、適用政策、訂閱申請狀態及其他相關資訊 SubscriberRequestId (UniqueId) 、SubscriberIdentityTypeDisplayName (FK) 、RequestorIdentityTypeDisplayName (FK) 、RequestorStatusDisplayName (FK)
詞彙表術語 關於詞彙表術語、描述及整體狀態的資訊 GlossaryTermID (UniqueID) 、ParentGlossaryTermID (FK) 、createdByUserID (FK) 、LastModifiedByUserID (FK)
詞彙表 商業領域指派 關於詞彙表、術語治理領域指派與狀態的資訊 GlossaryTermID (FK) 、BusinessDomainID (FK) 、assignedByUserID (FK) 、GlossaryTermStatusID (FK) 、CreatedByUserID (FK) 、LastUpdatedByUserID (FK)
詞彙表術語關鍵資料元素指派 將詞彙表術語與關鍵資料元素關聯 詞彙表TermID
詞彙表術語資料產品指派 關於詞彙表詞彙資料產品指派的資訊 GlossaryTermID (FK) 、DataProductID (FK) 、assignedByUserID (FK) 、GlossaryTermStatusID (FK) 、CreatedByUserID (FK) 、LastUpdatedByUserID (FK)
健康行動 關於資料治理與資料品質行動的資訊 ActionId、TargetEntityId、CreatedByUserID
健康行動尋找類型 資料健康行動 尋找類型 尋找TypeID
健康行動尋找子類型 資料健康行動 尋找子類型 尋找SubTypeId, 尋找TypeId。
健康行動使用者任務 資料健康行動 使用者指派 資訊 ActionId, AssignedToUserId
關鍵結果 資料產品目標的主要結果,包括詳細描述 關鍵結果ID,目標ID
目標 資料產品的目標包含客觀識別碼、客觀描述及客觀狀態 目標識別
政策集核准 政策集與審核者資訊 SubscriberRequestID (FK) 、AccessPolicySetID (FK) 、ApproverUserID (FK)
關聯 關於來源類型與目標資訊的資訊。 詞彙表中與資產及欄位的關聯關係可在此關係表中查閱。 AccountId、SourceId、TargetID

* 商業領域在新的整合式目錄使用者體驗中已改名為「治理領域」,但在資料庫中的實體模型中並未被重新命名。 名稱變更不會影響此處描述的商業網域使用情境。

此圖示展示了前述表格中描述的領域模型的實體關係: 瀏覽 ERD 的截圖。

訂閱 Fabric OneLake 的整合式目錄元資料

訂閱 Microsoft Purview 資料治理元資料以獲取分析,並透過以下步驟獲得洞察:

  1. Microsoft Purview 入口網站中,選擇設定,然後選擇整合式目錄,再選擇解決方案整合 (預覽)

  2. 請確保你擁有資料治理管理員(Data Governance Administrator)這個角色 () 了解角色 與權限

  3. 選取 [編輯]

  4. 新增 儲存類型啟用 設定。

  5. 新增 位置網址 (範例: https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata)

  6. 選擇 屬性 以複製網址。

    截圖顯示如何設定 Fabric URL。

  7. 屬性 頁面複製網址。

    截圖顯示如何設定 Fabric URL 2。

  8. 在網址末尾加上資料夾名稱;例如, /DEH如前圖所示。

  9. 授予貢獻者存取 Purview 管理服務身份 (MSI) Microsoft Fabric 工作空間的權限。

  10. 測試連線。

  11. 選擇 儲存 以儲存設定,並將 Microsoft Purview 的元資料發佈到你的 OneLake 工作空間。

啟用 managed V-NET

要啟用或停用受管理虛擬網路,請遵循以下步驟:

  1. 在 Microsoft Purview 入口網站中,選擇 設定
  2. 解決方案設定中,選擇整合式目錄,然後選擇解決方案整合 (預覽)
  3. 「配置儲存」 飛出面板中,選擇 啟用受管理的 V-NET 開關,以啟用你的儲存裝置受管理虛擬網路。

截圖顯示如何設定 vnet。

  1. 輸入目標資源 ID。 例如,目標資源 ID 為: /subscriptions/e2223ea4f73-6833-439d-b40e 615c78e2d8af/resourceGroups/vnettesting/providers/。 要複製你儲存的資源 ID,請選擇儲存的 Json 視圖並複製 Json 字串。
  2. 選擇 更新/重新整理 MPE 狀態 以查看更新。 狀態會從 配置 中變成 待處理
  3. 你需要在 Microsoft Azure 入口網站核准 MPE 請求才能完成設定。 一旦你批准了請求,MPE 狀態就會從 待處理 變成 已批准

顯示如何核准 vNet 配置請求的截圖。

請選擇啟用 受管型 V-NET 開關,將其關閉。 如果你停用它,那你就需要更換非虛擬網路儲存端點。

移除已設定的虛擬網路

要移除受管理的虛擬網路設定,請在配置儲存飛出窗格中選擇刪除 MPE。 此動作會刪除虛擬網路設定,並將其從 配置儲存 窗格中移除。 測試 連線 區域會重新出現,讓你能測試非虛擬網路連線。 測試連線僅在非虛擬儲存設定時啟用。

Fabric 儲存的管理虛擬網路配置

如果你的 Fabric 租戶設定為在虛擬網路或 Private Link 上運行,你需要在配置儲存面板中選擇啟用受管理的 V-NET,然後新增這裡列出的 Private Link 資源 ID:/subscriptions/07d669d6-83f2-4f15-8b5b-4a4b31a3432/resourceGroups/pdgbugbashfabricvnet/providers/Microsoft.PowerBI/privateLinkServicesForPowerBI/fabricvnetpl.

若要設定虛擬網路的運算,請參考「 設定受管理虛擬網路的資料品質」。 你需要先為 Fabric 租戶設置私有連結,才能設定資料品質、虛擬網路連線和計算分配。

關於虛擬網路設定的有用資訊

  • 啟用管理虛擬網路以儲存 Microsoft Purview 元資料時,務必確認你使用的是虛擬網路儲存中的 Location URL 或 Endpoint。
  • 為了避免使用錯誤的資源群組,請使用 JSN View 從 Azure 入口網站複製「目標資源 ID」。
  • 如果你刪除了已設定的虛擬網路,請確保你把端點或位置 URL 改成使用非虛擬網路儲存,並測試非虛擬網路儲存的連線。

注意事項

要儲存 資料品質錯誤紀錄,請為每個網域建立獨立的資料夾位置。 此方法將專屬的資料品質錯誤紀錄組織並儲存在專用資料夾中。

在 OneLake 建立語意模型

在資料與分析的脈絡中,語意模型指的是定義特定領域內意義、關係與規則的結構化資料表示。 它提供一層抽象層,幫助使用者理解並互動複雜資料,使其更直觀且易於取得,尤其在商業智慧 (商業智慧) 與分析平台的情境下。 在建立任何報告之前,語意模型始終是必要的。 在倉庫內,使用者可以將倉庫物件——資料表或檢視圖——加入其預設的 Power BI 語意模型。 它們也能加入其他語意建模特性,如階層結構與描述。 這些屬性接著用來建立 Power BI 語意模型的表格。 使用者也可以從預設的 Power BI 語意模型中移除物件。

要從 Microsoft Purview 資料控管元資料領域模型建立語意模型:

  1. 在你的 Fabric 工作空間中開啟 Lakehouse。

  2. 使用 捷徑 從 OneLake 建立網域模型的捷徑,並且在 OneLake 內。

    1. 選擇 表格 省略號按鈕 (......) 。
    2. 選擇 新捷徑 ,並從新捷徑來源頁面選擇 Microsoft OneLake
    3. 選擇 DomainModel 表格作為捷徑。

    截圖顯示如何透過捷徑發佈到 delta 表格。

  3. 在表格層級直接為所有檔案建立捷徑,這樣可以消除重複紀錄。

    截圖顯示如何建立表格層級的捷徑。

當你透過捷徑將所有檔案發佈到delta表後,你可以將delta表加入語意模型。

  1. 從 Lakehouse 頁面切換到 SQL 分析端點頁面。
  2. SQL 分析端點頁面左上角選擇「報告」。
  3. 選擇 管理預設語意模型
  4. 從 dbo > 中選擇你想加入語意模型以進行報告的資料表。

有一張截圖,展示如何手動將表格加入語意模型。

若要將資料表或檢視等物件加入預設的 Power BI 語意模型,請選擇 「自動更新語意模型」。

顯示自助分析語意模型的截圖。

注意事項

  • 你可以右鍵點擊加入相關資料表來建立關聯。

  • 如果你不想訂閱 Purview 的 Self-Reporting 分析元資料Microsoft,你可以手動停用自助分析 (元資料訂閱) :到解決方案設定>整合式目錄>解決方案整合自助>分析,並選擇關閉該選項的開關。 您需要資料治理管理員角色來啟用或停用此功能。

訂閱 Purview 目錄中繼資料至 Data Lake Storage Gen2 儲存

訂閱 Microsoft Purview 的資料治理元資料,透過以下步驟發布並儲存至 AdlsG2 儲存,以便分析與洞察:

  1. 在 Microsoft Purview 入口網站中,開啟整合式目錄

  2. 在左側導覽中選擇設定,然後在解決方案設定中選擇整合式目錄

  3. 選擇 解決方案整合,然後選擇 編輯

  4. 選擇 儲存類型啟用 設定。

  5. 新增 位置網址。 這個 URL 必須是 Data Lake Storage Gen2 路徑加上容器名稱,格式為 Data Lake Storage Gen2 + 「/ (容器名稱) 」。

    1. 前往 portal.azure.com。
      1. 選擇您的Data Lake Storage Gen2儲存空間 (> Adlsg2) 。
    2. 前往設定>端點,選擇你 Microsoft Azure Data Lake 儲存裝置的主要端點。
  6. 授權儲存 Blob 資料貢獻者存取 Microsoft Purview 管理服務身份 (MSI) 用於你的 Data Lake Storage Gen2 容器。

  7. 測試連線。

    瀏覽模型

  8. 選擇「儲存」以儲存組態,並將網域模型發佈到你的 Data Lake Storage Gen2 儲存。

注意事項

要儲存 資料品質錯誤紀錄,請為每個網域建立獨立的資料夾位置。 此方法將專屬的資料品質錯誤紀錄組織並儲存在專用資料夾中。

回顧已發表的模型與數據

  1. 打開 portal.azure.com。

  2. 選擇您的 Data Lake Storage Gen2 儲存空間。

  3. 在 Microsoft Purview 中選擇你在 Data Lake Storage Gen2 端點中新增的容器。

  4. 瀏覽容器中已發布的 Delta Parquet 檔案清單。

  5. 瀏覽已發表的模型與元資料 () 查看以下圖片。

    截圖顯示如何在 adlsg2 容器中設定訂閱連線。

    瀏覽模型檔案

建立 Power BI 報告

Power BI 是原生整合在整個 Fabric 體驗中。 此原生整合包含一種獨特的模式,稱為 DirectLake,可存取湖屋資料,提供最效能的查詢與報告體驗。 DirectLake 是一項突破性的新功能,讓你能在 Power BI 中分析大型語意模型。 使用 DirectLake,你可以直接從資料湖載入 parquet 格式的檔案,無需查詢資料倉儲或湖屋端點,也不需要將資料匯入或複製到 Power BI 語意模型中。 DirectLake 是一種快速路徑,可以直接將資料湖的資料載入 Power BI 引擎,供分析使用。

在傳統的 DirectQuery 模式中,Power BI 引擎會直接從來源查詢每次查詢執行的資料,查詢效能取決於資料擷取速度。 DirectQuery 消除了複製資料的需求,確保任何原始碼變更都能立即反映在查詢結果中。

欲了解更多資訊,請參閱 如何在 Microsoft Fabric 中建立 Power BI 報告

安排行程

資料治理管理員可依照以下步驟設定自助分析元資料更新排程:

  1. 在 Microsoft Purview 入口網站中,開啟整合式目錄
  2. 在左側導覽中選擇設定,然後在解決方案設定中選擇整合式目錄
  3. 選擇 解決方案整合,然後選擇排程器圖示。
  4. 排程自助分析時,開啟 啟用 開關,並設定開始日期、頻率和結束日期。
  5. 選取 [儲存]

工作經歷

你可以點擊自助分析頁面中的職缺歷史圖示來瀏覽 職缺歷史 。 您可以篩選工作狀態為完成或失敗,以設定日期範圍。

截圖顯示工作狀態清單。

重要事項

  • 預設刷新週期是每 24 小時一次。
  • 如果你訂閱 Microsoft Purview 的元資料以發佈到 Fabric 工作區,Purview MSI 需要貢獻者存取權。
  • 如果你訂閱 Purview Metadata 要發佈到 adlsg2 容器,MSI 需要 Storage Blob Data Contributor 權限才能存取你的 Azure Data Lake Storage Gen2。
  • 排程資料刷新工作尚未支援。
  • 虛擬網路還不支援。
  • 我們只發布受控資產的資料。 與資料產品相關的資料資產被歸類為受控資產。 未受管理的資料地圖資產不會出現在自助分析資料資產表中。
  • 我們在目錄中實作了 RBAC,確保並非所有使用者都能查看所有網域或資料產品。 然而,對於自助分析,我們會公開所有資料,讓任何有權取得這些資料的人都能查看整個目錄。 自助中繼資料的存取控制取決於資料儲存地點——無論是 Fabric 工作區擁有者或 ADLS Gen2 儲存擁有者,都可以管理存取權限。
  • 如果你不想訂閱 Purview 的 Self-Reporting 分析元資料Microsoft,你可以手動停用自助分析 (元資料訂閱) :到解決方案設定>整合式目錄>解決方案整合自助>分析,並選擇關閉該選項的開關。 您需要資料治理管理員角色來啟用或停用此功能。