共用方式為


Azure Synapse Data Explorer 數據匯入概覽(預覽)

這很重要

Azure Synapse Analytics 數據總管 (預覽版) 將於 2025 年 10 月 7 日淘汰。 在此日期之後,將會刪除在 Synapse 數據總管上執行的工作負載,且相關聯的應用程式數據將會遺失。 強烈建議移轉至 Microsoft Fabric 中的 Eventhouse

Microsoft雲端移轉處理站 (CMF) 計劃的設計目的是協助客戶移轉至 Fabric。 此計劃提供客戶實作鍵盤培訓資源,不收取任何費用。 這些資源會指派 6-8 周,並具有預先定義且已同意的範圍。 客戶提名會由 Microsoft 帳戶小組接受,或直接透過向 CMF 小組提交 協助申請 來接受。

資料擷取是用來從一個或多個來源載入資料記錄,並將資料匯入 Azure Synapse 資料探索池中的資料表的過程。 一旦匯入,資料即可以查詢。

負責資料擷取的 Azure Synapse Data Explorer 資料管理服務實作了以程:

  • 從外部來源批次或串流擷取資料,並讀取 Azure 待處理佇列中的請求。
  • 流向同一資料庫與資料表的批次資料會優化以提升擷取吞吐量。
  • 初始資料會被驗證,並在必要時轉換格式。
  • 進一步的資料操作包括結構匹配、組織、索引、編碼及壓縮資料。
  • 資料依照設定的保留政策被持久保存在儲存中。
  • 被導入的資料會提交到引擎中,供查詢使用。

支援的資料格式、屬性與權限

批次處理與串流導入

  • 批量匯入是進行資料批次處理,並優化以達到高匯入吞吐量。 此方法是首選且效果最佳的攝取方式。 資料依照攝取屬性進行批次處理。 小批量資料會被合併並優化以快速查詢結果。 資料擷取批次策略可以在資料庫或資料表上設定。 預設情況下,最大批次值為 5 分鐘、1000 個項目,或總大小為 1 GB。 批次擷取指令的資料大小限制為 4 GB。

  • 串流擷取 是指持續從串流來源擷取資料。 串流擷取允許每表小資料集達到近乎即時的延遲。 資料最初會被導入列儲存,然後移至欄位儲存區間。

攝取方法與工具

Azure Synapse Data Explorer 支援多種擷取方法,每種方法都有其特定的目標情境。 這些方法包括擷取工具、連接各種服務的連接器與外掛、管理管線、使用 SDK 進行程式化擷取,以及直接存取擷取。

使用受管理的管線進行資料導入

對於希望由外部服務來管理(限速、重試、監控、警示等)的組織來說,使用連接器可能是最合適的解決方案。 排隊式匯入適用於大量資料。 Azure Synapse Data Explorer 支援以下 Azure 管線:

  • Synapse pipelinesSynapse 管線 中分析工作負載的全託管資料整合服務,連接超過 90 個支援來源,提供高效且具韌性的資料傳輸。 Synapse 資料管線準備、轉換並豐富資料,提供可透過不同方式監控的洞見。 此服務可作為一次性解決方案、定期時程使用,或由特定事件觸發。

使用 SDK 的程式化導入

Azure Synapse Data Explorer 提供可用於查詢與資料擷取的 SDK。 程式化資料匯入經過優化以降低資料匯入成本,透過在資料匯入過程中及之後減少儲存交易。

在開始之前,請依照以下步驟取得資料總管池的端點,以設定程式化擷取。

  1. 在 Synapse Studio 的左側窗格上,選取 [管理] [資料總管集區]>

  2. 選取您想要使用的 [資料探索器] 集區以查看其詳細資訊。

    [數據總管集區] 畫面的螢幕快照,其中顯示現有集區的清單。

  3. 記下查詢和數據擷取端點。 設定數據總管集區的連線時,請使用查詢端點作為叢集。 設定數據擷取的 SDK 時,請使用資料擷取端點。

    [數據總管] 集區屬性窗格的螢幕快照,其中顯示查詢和數據擷取 URI 位址。

可用的 SDK 與開源專案

Tools

  • 一鍵擷取:透過建立並調整多種來源資料表,讓您能快速擷取資料。 一鍵擷取會自動根據 Azure Synapse 資料探索器中的資料來源建議資料表與映射結構。 一鍵擷取可用於一次性擷取,或透過資料擷取容器上的事件網格定義連續擷取。

Kusto 查詢語言 匯入控制命令

有多種方法可以透過 Kusto 查詢語言(KQL)指令直接將資料匯入引擎。 由於此方法繞過資料管理服務,僅適合用於探索與原型設計。 不要在生產或大流量的情況下使用這種方法。

  • 內嵌擷取:將控制指令 .ingest inline 傳送給引擎,所擷取的資料包含在指令文本中。 此方法適用於即興測試目的。

  • 從查詢擷取:將控制命令 .set、.append、.set-or-append 或 .set-or-replace 傳送給引擎,資料會作為查詢或指令的結果間接指定。

  • 從儲存裝置擷取(pull):控制指令 .ingest into 被傳送給引擎,資料儲存在某個外部儲存裝置中(例如 Azure Blob Storage),引擎可以存取,並由指令指定位置。

關於使用導入控制指令的範例,請參見 「使用資料探索器分析」。

攝取過程

一旦你選擇了最適合自己需求的攝取方式,請採取以下步驟:

  1. 設定留任政策

    在 Azure Synapse Data Explorer 中,匯入資料表的資料會受到該資料表有效保留政策的限制。 除非明確設定在表格上,否則有效的保留政策是從資料庫的保留政策推導而來。 熱留存率取決於群集規模和你的留存政策。 如果資料攝取量超過可用空間,會將最先攝取的資料進入冷備存。

    請確保資料庫的保留政策符合你的需求。 如果沒有,就在表格層級明確覆寫。 欲了解更多資訊,請參閱 保留政策

  2. 建立表格

    為了匯入資料,必須事先建立一個資料表。 使用下列其中一個選項:

    備註

    若記錄不完整或欄位無法解析為所需資料型態,對應的資料表欄位將被填入空值。

  3. 建立結構映射

    結構映射 有助於將來源資料欄位綁定到目的資料表欄位。 映射功能允許你根據定義的屬性,將不同來源的資料整合到同一個資料表。 支援不同類型的映射,包括列導向(CSV、JSON 和 AVRO)和欄導向映射(Parquet)。 在大多數方法中,映射也可以 預先建立在表格 上,並從 ingest 指令參數中引用。

  4. 設定更新政策 (可選)

    部分資料格式映射(Parquet、JSON 和 Avro)支援簡單且實用的攝取時間轉換。 若情境在導入時需要較複雜的處理,則使用 Update policy,允許使用 Kusto 查詢語言指令進行輕量級處理。 更新策略會自動對原始資料表中已接收的資料執行擷取與轉換,並將所得資料匯入一個或多個目的資料表。 設定 你的更新政策

後續步驟