Azure 數據總管是快速、完全受控、數據分析服務。 它提供大量數據的即時分析,這些數據會從許多來源串流,例如應用程式、網站和IoT裝置。
若要將數據從 Oracle Server、Netezza、Teradata 或 SQL Server 中的資料庫複製到 Azure 數據總管,您必須從多個數據表載入大量數據。 通常,數據必須分割在每個數據表中,以便您可以從單一數據表平行載入具有多個線程的數據列。 本文說明在這些案例中使用的範本。
Azure Data Factory 範本 是預先定義的 Data Factory 管線。 這些範本可協助您快速開始使用 Data Factory,並減少資料整合專案的開發時間。
您使用Lookup和ForEach活動建立從資料庫大量複製到 Azure 資料探索範本。 若要加快資料複製的速度,您可以使用範本為每個資料庫或每個數據表建立許多管線。
這很重要
請務必使用適合您想要複製之數據數量的工具。
- 使用 從資料庫大量複製到 Azure 資料總管 範本,將大量數據從 SQL Server 和 Google BigQuery 等資料庫複製到 Azure 資料總管。
- 使用 Data Factory 複製資料工具 ,將少數或適量數據的數據表複製到 Azure 數據總管。
先決條件
- Azure 訂用帳戶。 建立免費的 Azure 帳戶。
- Azure Data Explorer 叢集和資料庫。 建立叢集和資料庫。
- 數據處理站。 建立數據處理站。
- 數據源。
建立 ControlTableDataset
ControlTableDataset 指出將哪些數據從來源複製到管線中的目的地。 數據列數目表示複製數據所需的管線總數。 您應該將 ControlTableDataset 定義為源資料庫的一部分。
下列程式代碼顯示 SQL Server 來源資料表格式的範例:
CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);
下表說明程式代碼元素:
| 房產 | 說明 | 範例 |
|---|---|---|
| 分區識別碼 | 複製命令 | 1 |
| SourceQuery | 查詢語句,指出在管線執行時將複製哪些數據 | select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
|
| ADXTableName | 目的地數據表名稱 | MyAdxTable (我的廣告交易表) |
如果您的 ControlTableDataset 的格式不同,請為您的格式建立可比較的 ControlTableDataset。
使用「從資料庫大量複製到 Azure Data Explorer」範本
在 [ 讓我們開始使用] 窗格中,選取 [從範本建立管線 ] 以開啟 [ 範本庫 ] 窗格。
選取 [從資料庫大量複製到 Azure 資料探索器] 範本。
在 從資料庫大量複製到 Azure Data Explorer 窗格的 使用者輸入 底下,執行下列動作來指定資料集:
一。 在 ControlTableDataset 下拉式清單中,選取連接至控制表的服務,該服務指示哪些數據從來源複製到目的地以及數據在目的地的位置。
b。 在 [SourceDataset ] 下拉式清單中,選取源資料庫的鏈接服務。
丙. 在 [AzureDataExplorerTable] 下拉式清單中,選取 [Azure 數據總管] 數據表。 如果數據集不存在, 請建立 Azure 數據總管連結服務 以新增數據集。
d。 選取使用此範本。
在畫布中選取不包含活動的區域,以存取模板工作流程。 選取 [ 參數] 索引標籤以輸入數據表的參數,包括 名稱 (控制數據表名稱)和 預設值(數據 行名稱)。
在 [查閱] 底下,選取 [GetPartitionList] 以檢視預設設定。 系統會自動建立查詢。
選取命令活動 ForEachPartition,選取 設定 標籤,然後執行下列動作:
一。 在 [ 批次計數 ] 方塊中,輸入從 1 到 50 的數位。 此選取範圍會決定平行執行的管線數目,直到到達 ControlTableDataset 資料列的數目為止。
b。 若要確保管線批次平行執行, 請勿 選取 [ 循序 ] 複選框。
小提示
最佳做法是同時執行多條管線,以便更快速地複製您的數據。 為了提高效率,根據日期和數據表對源數據表的數據進行分區,並為每個管道分配一個分區。
選取 [全部驗證 ] 以驗證 Azure Data Factory 管線,然後在 [ 管線驗證輸出 ] 窗格中檢視結果。
如有必要,請選取 偵錯,然後選取 新增觸發程式 以執行管線。
您現在可以使用範本,有效率地從資料庫和數據表複製大量數據。
相關內容
- 瞭解適用於 Azure Data Factory 的 Azure Data Explorer 連接器。
- 在 Data Factory UI 中編輯連結的服務、數據集和管線。
- 在 Azure 數據總管 Web UI 中查詢數據。