您可以使用 Azure Synapse Link 將 Microsoft Dataverse 資料連接到 Azure Synapse Analytics 以探索您的資料並加快深入解析時間。 本文章將說明如何執行下列工作:
- 使用 Azure Synapse Link 服務將 Dataverse 資料連接到 Azure Synapse Analytics 工作區。
- 管理 Azure Synapse Link 中包含的 Dataverse 資料表。
- 監視 Azure Synapse Link。
- 解除 Azure Synapse Link 連結。
- 重新連結 Azure Synapse Link。
- 在 Azure Synapse Analytics 中檢視您的資料。
Note
Azure Synapse Link for Microsoft Dataverse 先前稱為「匯出至資料湖」。 服務的重新命名已在 2021 年 5 月生效,並將繼續匯出資料至 Azure Data Lake 以及 Azure Synapse Analytics。
先決條件
- Dataverse:您必須具備 Dataverse 系統管理員安全性角色。 此外,您要透過 Azure Synapse Link 匯出的資料表必須啟用追蹤變更屬性。 其他資訊:進階選項
Azure Data Lake Storage Gen2 需求
您必須擁有 Azure Data Lake Storage Gen2 帳戶和下列角色:
- Owner
- 儲存體 Blob 資料參與者
- 儲存體 Blob 擁有者
擁有者角色要求: 擁有者角色是必要的,因為將 Azure Synapse Link 服務的受控識別新增至儲存體帳戶是特殊許可權作業。 此受控識別可讓服務執行從 Dataverse 到 Synapse 的同步處理。 目前,需要擁有者角色,且此步驟不支援具有類似權限的自訂角色。
受控身分識別的權限:
- 擁有者和儲存體帳戶參與者: 只有在初次設定期間需要,才能在儲存體帳戶中建立檔案系統,並在儲存體帳戶上指派。 設定之後,可以移除這些權限,而不會影響同步作業。
- 儲存體 Blob 資料貢獻者: 在一般同步處理期間,是進行正常 Blob 作業所需的。
- 儲存體 Blob 資料擁有者: 目前在與 Azure Data Lake Storage Gen2 相關的情境中,管理資料和存取權限時是必需的。
您的儲存體帳戶必須為初始設定和差異同步啟用階層式命名空間。
只有初始設定才需要允許儲存體帳戶金鑰存取,因為服務會使用共用金鑰授權來執行特殊許可權作業,例如在切換至受控識別驗證之前建立檔案系統和建立連結。 設定之後,不再需要金鑰型存取。
您的儲存體帳戶必須將允許的複製作業範圍設定為 [從任何儲存體帳戶]。
- Synapse 工作區:您必須有 Synapse 工作區,以及 Synapse Studio 中的 Synapse 系統管理員角色存取權。 Synapse 工作區必須與您的 Azure Data Lake Storage Gen2 帳戶位於相同的區域。 在 Synapse Studio 中,必須將儲存帳戶新增為連結的服務。 若要建立 Synapse 工作區,請移至建立 Synapse 工作區。
注意
- 儲存體帳戶與 Synapse 工作區必須與您的 Power Apps 租用戶位於同一個 Microsoft Entra 租用戶中。
- 若要將連結的儲存體帳戶與工作區的設定設為僅允許所選的虛擬網路和 IP 位址,您必須使用受控身分識別建立 Azure Synapse Link。 其他詳細資訊:將 Azure 受管理身分與 Azure data lake storage 搭配使用 (如果未設定受管理身分,則必須啟用初始設定和增量同步的 Azure 資源公用網路存取。)
- 不支援出現受管理的專用端點、資料外流保護或受管理虛擬網路的 Synapse 工作區。
- 您必須擁有具有儲存體帳戶和 Synapse 工作區的資源群組讀取者角色存取權。
- 當您將多位使用者加入 Synapse 工作區時,他們必須在 Synapse Studio 中具有 Synapse Administrator 角色權限,並在 Azure Data Lake Storage Gen2 帳戶上擁有 Storage Blob Data Contributor 角色。
- 在單一 DV 環境下建立 Synapse 連結設定檔的最大限制為 10 個。
將 Dataverse 連接至 Synapse 工作區
登入 Power Apps,然後選取您偏好的環境。
從左側導覽選取 Azure Synapse Link。 如果側邊窗格中沒有顯示 Azure Synapse Link,請選擇 ...更多,然後選擇探索全部。 在資料管理區段中選擇 Azure Synapse Link。
在命令列中,選取 + 新連結。
選取連線至您的 Azure Synapse workspace 選項。
選取訂閱、資源群組、工作區名稱和儲存體帳戶。 請確定 Synapse 工作區和儲存體帳戶符合先決條件 區段中指定的需求。 選取下一步。
Note
在連結環境至 Data Lake 的過程中,您將 Azure Synapse Link 服務存取權限授與您的儲存體帳戶。 確定您已遵循建立和設定 Azure Data Lake Storage 帳戶的先決條件,並授與您自己在儲存體帳戶上的擁有者角色。 此外,您還會將 Power Platform 資料流程服務存取權限授與您的儲存體帳戶。 其他資訊:使用資料流程的自助資料準備。
選擇要匯出的資料表,可以逐一選擇,也可以在搜尋框中輸入以逗號分隔的資料表清單,然後選擇儲存。 僅可匯出啟用了「追蹤變更」屬性的表。 更多資訊:進階選項。
您可以依照上述步驟,將 Azure Data Lake 新增為 Synapse 工作區上的連結服務,在 Azure 訂閱中建立從一個環境至多個 Azure Synapse Analytics 工作區和 Azure Data Lake 的連結。 同樣地,您可以建立從多個環境到同一 Azure Synapse Analytics 工作區和 Azure Data Lake 的連結,這些都位於同一個租用戶中。
Note
Azure Synapse Link for Dataverse 服務已做為現成可用的功能緊密整合至 Power Platform 中。 它符合為 Power Platform 資料儲存體和治理設定的安全性與治理標準。 其他資訊:資料儲存體和治理
Azure Synapse Link 服務匯出的資料在傳輸時使用傳輸層安全性 (TLS) 1.2 或更新版本進行加密,並在 Azure Data Lake Storage Gen2 中待用時進行加密。 此外,blob 儲存體中的暫時性數據也會加密待用。 Azure Data Lake Storage Gen2 中的加密協助您保護資料、實施企業資訊安全性原則及符合法規合規性需求。 詳細資訊:Azure 靜態加密 詳細資訊: 設定 Azure 儲存體防火牆和虛擬網路
管理資歷表資料至 Synapse 工作區
設定 Azure Synapse Link 之後,您可以使用下列兩種方式之一來管理匯出的資料表:
在 Power Apps (make.powerapps.com) 的 Azure Synapse Link 區域中,於命令列選取管理資料表,以新增或移除一個或多個連結資料表。
在 Power Apps Maker Portal 資料表區域中,選擇 ...,然後選擇要匯出資料表資料的連結資料湖。
監視 Azure Synapse Link
設定 Azure Synapse Link 後,您可以在資料表索引標籤上監視 Azure Synapse Link。
- 將有一份資料表清單,其中的資料表是所選 Azure Synapse Link 的一部分。
- 同步狀態將會在不同階段循環進行。 NotStarted 表示該資料表正在等待同步處理。 表格初始同步完成時,將會有一個後續處理階段,不會發生累加式更新。 這可能需要幾個小時,需視資料大小而定。 當累加式更新開始進行時,將會定期更新上次同步的日期。
- 計數資料行顯示寫入的列數。 當限附加設為否時,這為記錄的總數。 當限附加設為是時,這為變更的總數。
- 僅附加與分割策略資料行會顯示不同進階設定的使用方式。
取消連結 Azure Synapse Link
選取要取消連結的 Azure Synapse Link。
從命令列選取取消連結。
若要同時刪除資料湖檔案系統以及 Synapse 資料庫,請鍵入連結名稱進行確認。
選取是,並等待幾分鐘完成全部取消連結並刪除。
重要
取消連結完成後,您在 Azure Synapse Link 資料庫中建立的自訂資料庫物件將會被刪除。
您將需要對其自訂資料庫物件指令碼實施自己的版本控制,以確保他們擁有備份。
重新連結 Azure Synapse Link
如果在解除連結時刪除了檔案系統,請依照上述步驟重新連結相同的 Synapse 工作區和資料湖。 如果在取消連結時未刪除檔案系統,則必須清除資料才能重新連結:
瀏覽至 Azure Synapse Analytics。
選取未連結資料庫的 ...,然後選取新增筆記本>空白筆記本。
從下拉式功能表中選取集區,將筆記本附加到 Apache Spark 集區中。 如果您未擁有 Apache Spark 集區,請選取管理集區以建立一個。
輸入以下指令碼,將 <DATABASE_NAME> 取代為要取消連結的資料庫名稱,並執行筆記本。
%%sql
DROP DATABASE <DATABASE_NAME> CASCADE
執行筆記本後,請從左面板重新整理資料庫清單。 如果資料庫仍然存在,請嘗試在資料庫上按一下滑鼠右鍵,然後選取刪除。
瀏覽至 Power Apps,然後重新連結 Synapse 工作區和資料湖。
存取近即時資料和唯讀快照資料
建立 Azure Synapse Link 後,兩個版本的資料表資料就會根據預設在 Azure 訂閱中的 Azure Synapse Analytics 和/或 Azure Data Lake Storage Gen2 中同步,以確保您可以在任何指定時間可靠地使用資料湖中已更新的資料:
- 近即時的資料:偵測自最初擷取或上次同步以來發生了哪些資料變更,透過 Azure Synapse Link 以有效的方式提供從 Dataverse 同步的資料複本。
- 快照資料:提供定期更新的近即時資料複本 (在此案例中為每隔一小時)。
Note
若要建立唯讀快照資料,請確定已在從任何儲存體帳戶設定複製作業的允許範圍。 其他資訊:設定複製作業的允許範圍
- 選擇所需的 Azure Synapse Link,然後從頂部面板選擇前往 Azure Synapse Analytics 工作區。
- 從左面板展開 Lake Databases,選取 dataverse-environmentName-organizationUniqueName,然後展開資料表。
所有近即時資料資料表均已列出並可用於使用命名規範 DataverseTableName 進行分析。 所有快照集資料資料表均已列出並可用於使用命名規範 DataverseTableName_partitioned 進行分析。
下一步是什麼?
成功使用 Azure Synapse Link for Dataverse 服務後,探索如何使用探索中心來分析和使用您的資料。 若要存取探索中心,請移至 Power Apps>Azure Synapse Link。 選取您連結的服務,然後選取探索中心索引標籤。您可以在此尋找建議的工具和策劃文件,以協助您讓資料發揮最大的價值。
請參閱
設定 Azure Synapse Link 以連接 Dataverse 與您的 Azure Data Lake