Azure Synapse Data Explorer 數據匯入概覽（預覽）

這很重要

Azure Synapse Analytics 數據總管（預覽版）將於 2025 年 10 月 7 日淘汰。在此日期之後，將會刪除在 Synapse 數據總管上執行的工作負載，且相關聯的應用程式數據將會遺失。強烈建議移轉至 Microsoft Fabric 中的 Eventhouse 。

Microsoft雲端移轉處理站（CMF）計劃的設計目的是協助客戶移轉至 Fabric。此計劃提供客戶實作鍵盤培訓資源，不收取任何費用。這些資源會指派 6-8 周，並具有預先定義且已同意的範圍。客戶提名會由 Microsoft 帳戶小組接受，或直接透過向 CMF 小組提交協助申請來接受。

資料擷取是用來從一個或多個來源載入資料記錄，並將資料匯入 Azure Synapse 資料探索池中的資料表的過程。一旦匯入，資料即可以查詢。

負責資料擷取的 Azure Synapse Data Explorer 資料管理服務實作了以程：

從外部來源批次或串流擷取資料，並讀取 Azure 待處理佇列中的請求。
流向同一資料庫與資料表的批次資料會優化以提升擷取吞吐量。
初始資料會被驗證，並在必要時轉換格式。
進一步的資料操作包括結構匹配、組織、索引、編碼及壓縮資料。
資料依照設定的保留政策被持久保存在儲存中。
被導入的資料會提交到引擎中，供查詢使用。

支援的資料格式、屬性與權限

支援的資料格式
擷取屬性：影響資料如何被擷取的屬性（例如標籤、映射、建立時間）。
權限：要匯入資料，該過程需要資料庫擷取層級的權限。其他動作，如查詢，可能需要資料庫管理員、資料庫使用者或資料表管理員權限。

批次處理與串流導入

批量匯入是進行資料批次處理，並優化以達到高匯入吞吐量。此方法是首選且效果最佳的攝取方式。資料依照攝取屬性進行批次處理。小批量資料會被合併並優化以快速查詢結果。資料擷取批次策略可以在資料庫或資料表上設定。預設情況下，最大批次值為 5 分鐘、1000 個項目，或總大小為 1 GB。批次擷取指令的資料大小限制為 4 GB。
串流擷取是指持續從串流來源擷取資料。串流擷取允許每表小資料集達到近乎即時的延遲。資料最初會被導入列儲存，然後移至欄位儲存區間。

攝取方法與工具

Azure Synapse Data Explorer 支援多種擷取方法，每種方法都有其特定的目標情境。這些方法包括擷取工具、連接各種服務的連接器與外掛、管理管線、使用 SDK 進行程式化擷取，以及直接存取擷取。

使用受管理的管線進行資料導入

對於希望由外部服務來管理（限速、重試、監控、警示等）的組織來說，使用連接器可能是最合適的解決方案。排隊式匯入適用於大量資料。 Azure Synapse Data Explorer 支援以下 Azure 管線：

Event Hub：一條將服務事件傳輸至 Azure Synapse Data Explorer 的管線。欲了解更多資訊，請參閱「從事件中心擷取資料至 Azure Synapse Data Explorer」。

Synapse pipelines： Synapse 管線中分析工作負載的全託管資料整合服務，連接超過 90 個支援來源，提供高效且具韌性的資料傳輸。 Synapse 資料管線準備、轉換並豐富資料，提供可透過不同方式監控的洞見。此服務可作為一次性解決方案、定期時程使用，或由特定事件觸發。

使用 SDK 的程式化導入

Azure Synapse Data Explorer 提供可用於查詢與資料擷取的 SDK。程式化資料匯入經過優化以降低資料匯入成本，透過在資料匯入過程中及之後減少儲存交易。

在開始之前，請依照以下步驟取得資料總管池的端點，以設定程式化擷取。

在 Synapse Studio 的左側窗格上，選取 [管理] [資料總管集區]>。
選取您想要使用的 [資料探索器] 集區以查看其詳細資訊。
記下查詢和數據擷取端點。設定數據總管集區的連線時，請使用查詢端點作為叢集。設定數據擷取的 SDK 時，請使用資料擷取端點。

可用的 SDK 與開源專案

Tools

一鍵擷取：透過建立並調整多種來源資料表，讓您能快速擷取資料。一鍵擷取會自動根據 Azure Synapse 資料探索器中的資料來源建議資料表與映射結構。一鍵擷取可用於一次性擷取，或透過資料擷取容器上的事件網格定義連續擷取。

Kusto 查詢語言匯入控制命令

有多種方法可以透過 Kusto 查詢語言（KQL）指令直接將資料匯入引擎。由於此方法繞過資料管理服務，僅適合用於探索與原型設計。不要在生產或大流量的情況下使用這種方法。

內嵌擷取：將控制指令 .ingest inline 傳送給引擎，所擷取的資料包含在指令文本中。此方法適用於即興測試目的。
從查詢擷取：將控制命令 .set、.append、.set-or-append 或 .set-or-replace 傳送給引擎，資料會作為查詢或指令的結果間接指定。
從儲存裝置擷取（pull）：控制指令 .ingest into 被傳送給引擎，資料儲存在某個外部儲存裝置中（例如 Azure Blob Storage），引擎可以存取，並由指令指定位置。

關於使用導入控制指令的範例，請參見「使用資料探索器分析」。

攝取過程

一旦你選擇了最適合自己需求的攝取方式，請採取以下步驟：

設定留任政策

在 Azure Synapse Data Explorer 中，匯入資料表的資料會受到該資料表有效保留政策的限制。除非明確設定在表格上，否則有效的保留政策是從資料庫的保留政策推導而來。熱留存率取決於群集規模和你的留存政策。如果資料攝取量超過可用空間，會將最先攝取的資料進入冷備存。

請確保資料庫的保留政策符合你的需求。如果沒有，就在表格層級明確覆寫。欲了解更多資訊，請參閱保留政策。
建立表格

為了匯入資料，必須事先建立一個資料表。使用下列其中一個選項：
- 建立一個帶有指令的表格。關於使用「建立表格」指令的範例，請參見「使用資料總管分析」。
- 使用 One-Click Ingestion 建立表格。
備註

若記錄不完整或欄位無法解析為所需資料型態，對應的資料表欄位將被填入空值。
建立結構映射

結構映射有助於將來源資料欄位綁定到目的資料表欄位。映射功能允許你根據定義的屬性，將不同來源的資料整合到同一個資料表。支援不同類型的映射，包括列導向（CSV、JSON 和 AVRO）和欄導向映射（Parquet）。在大多數方法中，映射也可以預先建立在表格上，並從 ingest 指令參數中引用。
設定更新政策 （可選）

部分資料格式映射（Parquet、JSON 和 Avro）支援簡單且實用的攝取時間轉換。若情境在導入時需要較複雜的處理，則使用 Update policy，允許使用 Kusto 查詢語言指令進行輕量級處理。更新策略會自動對原始資料表中已接收的資料執行擷取與轉換，並將所得資料匯入一個或多個目的資料表。設定你的更新政策。

後續步驟

Last updated on 2025-03-24

共用方式為