使用 Azure Synapse Link for Dataverse 將資料從 Microsoft Dataverse 匯出至 Azure Data Lake Storage Gen2 之後,您可以使用 Azure Data Factory 來建立資料流程、轉換資料,以及執行分析。
備註
Azure Synapse Link for Dataverse 先前稱為「匯出至資料湖」。 該服務已於 2021 年 5 月重新命名,並將繼續將數據導出到 Azure Data Lake 以及 Azure Synapse Analytics。
本文說明如何執行下列工作:
將 Data Lake Storage Gen2 儲存帳戶設為 Data Factory 資料流程中的 Dataverse 資料來源。
使用資料流處理 Data Factory 中的 Dataverse 資料。
使用 Dataverse 資料作為資料處理站資料流程中的來源,將 Data Lake Storage Gen2 儲存體帳戶設定為接收源。
建立管線以執行資料流程。
先決條件
本節說明使用 Data Factory 擷取匯出的 Dataverse 資料所需的必要條件。
Azure 角色。 用來登入 Azure 的使用者帳戶必須是 參與者 或 擁有者 角色的成員,或 Azure 訂用帳戶的 系統管理員 。 若要檢視您在訂用帳戶中擁有的許可權,請移至 Azure 入口網站,選取右上角的使用者名稱,選取 ...,然後選取 [我的許可權]。 如果您有權存取多個訂閱,請選取適當的訂閱。 若要在 Azure 入口網站中建立和管理 Data Factory 的子資源 (包括資料集、連結服務、管線、觸發程式和整合執行階段),您必須屬於資源群組層級或更高版本的 Data Factory 參與者 角色。
適用於 Dataverse 的 Azure Synapse Link。 本指南假設您已使用 Azure Synapse Link for Dataverse 匯出 Dataverse 資料。 在此範例中,帳戶資料表資料會匯出至資料湖。
Azure Data Factory。 本指南假設您已在與包含匯出 Dataverse 資料的儲存體帳戶相同的訂用帳戶和資源群組下建立資料處理站。
將 Data Lake Storage Gen2 儲存體帳戶設定為來源
開啟 Azure Data Factory ,然後選取與包含匯出 Dataverse 資料的儲存體帳戶位於相同訂用帳戶和資源群組上的資料處理站。 然後從首頁選取 建立資料流程 。
開啟 資料流程偵錯 模式,然後選取您偏好的存留時間。 這最多可能需要 10 分鐘,但您可以繼續執行以下步驟。
選取 [新增來源]。
在 [來源設定] 底下,執行下列動作:
- 輸出串流名稱:輸入您想要的名稱。
- 來源類型:選取 [內嵌]。
- 內嵌資料集類型:選取 [通用資料模型]。
- 連結服務:從下拉式功能表中選取儲存體帳戶,然後提供您的訂用帳戶詳細資料並保留所有預設設定,以連結新服務。
- 抽樣:如果您想使用所有資料,請選取 停用。
在 [ 來源選項] 底下,執行下列動作:
中繼資料格式:選取 Model.json。
根位置:在第一個方塊中輸入容器名稱(容器),或瀏覽容器名稱並選取確定。
實體:輸入資料表名稱或瀏覽資料表。
檢查 Projection 索引標籤,確定您的結構描述已成功匯入。 如果您沒有看到任何欄,請選取 結構描述選項 並核取 推斷漂移欄型別 選項。 設定格式選項以符合您的資料集,然後選取 套用。
您可以在「 資料預覽 」索引標籤中檢視資料,以確保來源建立完整且準確。
轉換您的 Dataverse 資料
將 Azure Data Lake Storage Gen2 帳戶中匯出的 Dataverse 資料設定為 Data Factory 資料流程中的來源後,有許多轉換資料的可能性。 其他資訊: Azure Data Factory
請遵循這些指示,依帳戶資料表的 收入 欄位為每一列建立排名。
在先前轉換的右下角選取 +,然後搜尋並選取 Rank。
在 [排名設定 ] 索引標籤上,執行下列動作:
輸出串流名稱:輸入您想要的名稱,例如 Rank1。
傳入串流:選取您想要的來源名稱。 在此情況下,來源名稱來自上一步。
選項:取消勾選選項。
排名欄:輸入產生的排名欄的名稱。
排序條件:選擇 收入 欄並按 降序 排序。
您可以在 資料預覽 標籤中檢視資料,在最右邊的位置找到新的 revenueRank 欄。
將 Data Lake Storage Gen2 儲存帳戶設定為資料接收端
最後,您必須為資料流程設定接收器。 請遵循這些指示,將轉換後的資料作為分隔文字檔放在資料湖中。
在先前轉換的右下角選取 +,然後搜尋並選取 Sink。
在 [Sink] 頁籤上,執行下列動作:
輸出串流名稱:輸入您想要的名稱,例如 Sink1。
傳入串流:選取您想要的來源名稱。 在此情況下,來源名稱來自上一步。
Sink 類型:選取 DelimitedText。
連結服務:選取您的 Data Lake Storage Gen2 儲存體容器,其中包含您使用 Azure Synapse Link for Dataverse 服務匯出的資料。
在 [設定 ] 索引標籤上,執行下列動作:
資料夾路徑:在第一個方塊中輸入容器名稱(檔案系統)或瀏覽以尋找容器名稱,然後選取確定。
檔案名稱選項:選取 輸出至單一檔案。
輸出到單一檔案:輸入檔案名稱,例如 ADFOutput
保留所有其他預設設定。
在 [最佳化 ] 索引標籤上,將 [分割區] 選項 設定為 [單一分割區]。
您可以在 「資料預覽 」標籤中檢視資料。
執行您的數據流
在[Factory 資源]的左窗格中,選取+,然後選取[管線]。
在 [活動] 底下,選取 [移動 & 轉換],然後將 [資料流程 ] 拖曳至工作區。
選取 [ 使用現有的資料流程],然後選取您在先前步驟中建立的資料流程。
從命令列中選取偵錯。
讓資料流程執行,直到底端檢視表顯示已完成。 這可能需要幾分鐘時間。
前往最終目的地儲存容器,並尋找轉換後的資料表資料檔案。