共用方式為


使用 Azure Data Factory 範本從資料庫批量複製到 Azure 數據探索器

Azure 數據總管是快速、完全受控、數據分析服務。 它提供大量數據的即時分析,這些數據會從許多來源串流,例如應用程式、網站和IoT裝置。

若要將數據從 Oracle Server、Netezza、Teradata 或 SQL Server 中的資料庫複製到 Azure 數據總管,您必須從多個數據表載入大量數據。 通常,數據必須分割在每個數據表中,以便您可以從單一數據表平行載入具有多個線程的數據列。 本文說明在這些案例中使用的範本。

Azure Data Factory 範本 是預先定義的 Data Factory 管線。 這些範本可協助您快速開始使用 Data Factory,並減少資料整合專案的開發時間。

您使用LookupForEach活動建立從資料庫大量複製到 Azure 資料探索範本。 若要加快資料複製的速度,您可以使用範本為每個資料庫或每個數據表建立許多管線。

這很重要

請務必使用適合您想要複製之數據數量的工具。

  • 使用 從資料庫大量複製到 Azure 資料總管 範本,將大量數據從 SQL Server 和 Google BigQuery 等資料庫複製到 Azure 資料總管。
  • 使用 Data Factory 複製資料工具 ,將少數或適量數據的數據表複製到 Azure 數據總管。

先決條件

建立 ControlTableDataset

ControlTableDataset 指出將哪些數據從來源複製到管線中的目的地。 數據列數目表示複製數據所需的管線總數。 您應該將 ControlTableDataset 定義為源資料庫的一部分。

下列程式代碼顯示 SQL Server 來源資料表格式的範例:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

下表說明程式代碼元素:

房產 說明 範例
分區識別碼 複製命令 1
SourceQuery 查詢語句,指出在管線執行時將複製哪些數據
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName 目的地數據表名稱 MyAdxTable (我的廣告交易表)

如果您的 ControlTableDataset 的格式不同,請為您的格式建立可比較的 ControlTableDataset。

使用「從資料庫大量複製到 Azure Data Explorer」範本

  1. 在 [ 讓我們開始使用] 窗格中,選取 [從範本建立管線 ] 以開啟 [ 範本庫 ] 窗格。

    Azure Data Factory [讓我們開始使用] 窗格

  2. 選取 [從資料庫大量複製到 Azure 資料探索器] 範本。

    「從資料庫批量複製到 Azure 資料探索服務」範本

  3. 從資料庫大量複製到 Azure Data Explorer 窗格的 使用者輸入 底下,執行下列動作來指定資料集:

    一。 在 ControlTableDataset 下拉式清單中,選取連接至控制表的服務,該服務指示哪些數據從來源複製到目的地以及數據在目的地的位置。

    b。 在 [SourceDataset ] 下拉式清單中,選取源資料庫的鏈接服務。

    丙. 在 [AzureDataExplorerTable] 下拉式清單中,選取 [Azure 數據總管] 數據表。 如果數據集不存在, 請建立 Azure 數據總管連結服務 以新增數據集。

    d。 選取使用此範本

    [從資料庫大量複製到 Azure 數據總管] 窗格

  4. 在畫布中選取不包含活動的區域,以存取模板工作流程。 選取 [ 參數] 索引標籤以輸入數據表的參數,包括 名稱 (控制數據表名稱)和 預設值(數據 行名稱)。

    管線參數。

  5. [查閱] 底下,選取 [GetPartitionList] 以檢視預設設定。 系統會自動建立查詢。

  6. 選取命令活動 ForEachPartition,選取 設定 標籤,然後執行下列動作:

    一。 在 [ 批次計數 ] 方塊中,輸入從 1 到 50 的數位。 此選取範圍會決定平行執行的管線數目,直到到達 ControlTableDataset 資料列的數目為止。

    b。 若要確保管線批次平行執行, 請勿 選取 [ 循序 ] 複選框。

    ForEachPartition 設定。

    小提示

    最佳做法是同時執行多條管線,以便更快速地複製您的數據。 為了提高效率,根據日期和數據表對源數據表的數據進行分區,並為每個管道分配一個分區。

  7. 選取 [全部驗證 ] 以驗證 Azure Data Factory 管線,然後在 [ 管線驗證輸出 ] 窗格中檢視結果。

    驗證範本管線。

  8. 如有必要,請選取 偵錯,然後選取 新增觸發程式 以執行管線。

    [偵錯] 和 [執行管線] 按鈕

您現在可以使用範本,有效率地從資料庫和數據表複製大量數據。