共用方式為


Microsoft Fabric 決策指南:選擇資料整合策略

Microsoft Fabric 擁有一套全面的工具來有效地處理數據和分析工作負載。 有如此多的可用選項,包括批次、管道和即時串流功能,選擇適合您特定需求的工具可能具有挑戰性。 本決策指南提供藍圖,協助您選取正確的策略。

資料整合工作流程圖的螢幕擷取畫面,顯示資料移動、協調流程和轉換的資料行。

若要在 Microsoft Fabric 中選擇正確的資料整合服務,請考慮下列問題:

  • 你的主要目標是什麼? 您想要擷取資料、轉換資料、複寫資料、協調資料移動,或即時串流資料並處理資料?

  • 您的技術水平如何? 您更喜歡無程式碼或低程式碼解決方案,還是您願意使用程式碼?

  • 您正在處理哪種類型的資料工作負載? 是批次、大量、增量、連續串流,還是近乎即時?

  • 您需要什麼樣的資料轉換? 你是在進行光變換還是複雜的變換?

如需複製工作、複製活動和資料流第 2 代支援的聯結器清單,請參閱 聯結器概觀。 如需支援的 Eventstream 來源清單,請參閱 來源清單

資料移動策略

鏡像 複製工作 複製活動 (管線) 事件串流
應用案例 數據複製 資料擷取和複寫 資料擷取 串流資料擷取和處理
旗艦場景 與交鑰匙設置近乎實時同步。 重複 增量複製/複寫(浮水印+原生CDC)、資料湖/儲存資料移轉、獎章擷取、現成可用的多表複製。 資料湖/儲存資料移轉、獎章擷取、透過管線運算式和控制表的增量複製(僅限浮水印) 增量處理、事件驅動和即時 AI 應用程式
來源 6+ 連接器 50+ 連接器 50+ 連接器 25+ 來源
Destination 鏡像資料庫 (儲存為 Fabric OneLake 中的唯讀 Delta 資料表) 40+ 連接器 40+ 連接器 4+ 個目的地
傳入資料類型 近乎實時 批次/增量複製(基於水印和更改數據捕獲)/近實時 批次/批量/手動基於水印的增量副本 實時串流數據、更改數據擷取/資料匯入
角色 業務分析師、資料庫管理員 業務分析師、數據集成商、數據工程師 資料整合商、業務分析師、資料工程師 資料工程師和整合商、資料分析師
技能組合 None ETL、SQL ETL、SQL ETL、SQL、KQL
編碼等級 無代碼 無代碼/低代碼 無代碼/低代碼 無代碼/低代碼
轉型支援 None Low Low 媒體平台(串流分析)

如需詳細資訊,請參閱 資料移動策略

協調流程策略

管道 Apache Airflow 工作
應用案例 低程式碼編排 程式碼優先協調流程
旗艦場景 將數個活動邏輯分組在一起以執行任務。 Python Code-Centric 編寫
來源 所有 Fabric 相容來源 (取決於選取的管線活動) 100+ 連接器
Destination 所有 Fabric 相容來源 (取決於選取的管線活動) 100+ 連接器
傳入資料類型 所有類型 所有類型
角色 資料整合商、業務分析師、資料工程師 Apache Airflow 使用者
技能組合 ETL、SQL、Spark(Scala、Py、SQL、R) Python
編碼等級 無代碼/低代碼 程式碼優先
轉型支援 None None

轉型策略

筆記本 資料流程第 2 代 事件串流
應用案例 程式碼優先資料準備/轉換 無程式碼資料準備/轉換 無程式碼轉換/SQL 型串流分析
旗艦場景 複雜的轉換 轉換與分析 串流處理和分析
來源 100+ 個 Spark 函式庫 170+ 內建 連接器 + 自訂 SDK 25+ 來源
Destination 100+ 個 Spark 函式庫 7+ 連接器 4+ 個目的地
傳入資料類型 所有類型 所有類型 包括所有類型。 JSON、AVRO、CSV、XML、TXT 等。
角色 資料科學家、開發人員 資料工程師、資料整合商、業務分析師 數據工程師和分析師
技能組合 Spark(Scala、Py、SQL、R) ETL、M、SQL SQL、KQL
編碼等級 程式碼優先 無代碼/低代碼 無代碼/低代碼
轉型支援 High 高(400+ 活動) 中等

Scenarios

檢閱這些案例,以協助您選擇要在 Microsoft Fabric 中使用的資料整合策略。

案例 1

Hanna 是一家金融服務公司的資料庫管理員。 她管理多個關鍵的 SQL Server 資料庫,這些資料庫為組織的交易應用程式提供支援。 企業需要近乎即時地存取這些交易資料,以進行監管報告和風險分析。 然而,Hanna 需要避免影響生產系統的效能。

Hanna 面臨的挑戰是為分析團隊提供 up-to日期的數據,而不會對營運資料庫造成額外的負載。 她不想建置複雜的 ETL 管道或管理資料移動流程。 資料量很大,而且企業需要在來源系統中發生交易後幾分鐘內提供可供分析的資料。

Hanna 檢閱選項並選擇 鏡像 作為理想的解決方案。 透過鏡像,她可以設定從 SQL Server 資料庫到 Microsoft Fabric 的近乎即時的資料複寫,只需最少的組態。 鏡像資料會在 OneLake 中以差異資料表的形式提供,在不影響來源系統效能的情況下啟用下游分析。 鏡像提供了她所需的統包設置,自動管理資料複製的複雜性,同時確保業務連續性。

案例 2

查理是一家零售公司的數據分析師。 他負責將來自多個區域資料庫的銷售資料整合到中央資料倉儲中。 該公司跨不同時區運營,每個地區的數據庫都使用變更數據捕獲 (CDC) 來跟踪庫存和銷售交易。 Charlie 需要一個解決方案,可以處理歷史資料的初始滿載,然後切換到基於 CDC 的增量更新。

Charlie 想要一種無程式碼、精靈驅動的方法,讓他能夠從各種區域 SQL Server 執行個體中選取多個資料表、執行初始大量移轉,然後透過 CDC 型累加載入自動維護 up-to日期資料。 解決方案需要同時處理插入和更新,而且應該將變更合併到目的地,而不需要手動介入。

Charlie 會評估選項,並選取「 複製工作」 作為他的偏好方法。 複製作業提供了他需要的多表選擇功能,支持基於水印和原生 CDC 增量複製,並提供直觀的嚮導界面。 開箱即用的功能使他無需編寫代碼即可配置整個資料複製過程,並且自動偵測啟用 CDC 的表簡化了設定過程。

場景 3

Rukmina 是一家製造公司的資料工程師。 她需要將大量歷史生產資料從內部部署 Oracle 資料庫移轉至新的 Fabric 倉儲。 遷移涉及複製數百個具有數百萬筆記錄的表格,她需要實作具有青銅、銀和金層的獎章架構。 Rukmina 擁有 SQL 經驗,但盡可能更喜歡低程式碼解決方案。

該專案要求她將原始資料複製到青銅層,然後在資料穿過獎章層時應用輕量級轉換,例如資料類型轉換和列映射。 Rukmina 需要確保解決方案能夠有效地處理大量資料,並且可以安排以增量方式運行以進行營運。 利害關係人想要一個能夠隨著業務成長而從 GB 資料擴展到 PB 資料的解決方案。

Rukmina 檢閱可用選項,並選擇 [在管道中複製活動]。 這種方法為她提供了她喜歡的拖放介面,同時提供了大量資料所需的可擴展性。 複製活動支援各種來源系統所需的 50+ 連接器,而管道架構可讓她協調獎章層之間的移動。 透過複製活動,她可以實作歷史和增量資料重新整理模式,同時維持 PB 級作業所需的效能。

案例 4

Julian 是一位具有強大 SQL 技能的業務分析師。 他需要編排一個複雜的資料處理工作流程,該工作流程涉及多個步驟:從各種系統提取資料、執行資料品質檢查、執行轉換、將資料載入多個目的地以及向利害關係人發送通知。 工作流程需要按排程執行,並處理不同活動之間的相依性。

Julian 的組織會混合使用 Azure 服務和內部部署系統,而且工作流程需要資料移動和協調流程邏輯。 他需要協調執行預存程序、呼叫 Web API、移動檔案和執行其他管線等活動。 雖然 Julian 對 SQL 和基本腳本很熟悉,但他更喜歡使用視覺化的低程式碼方法來建立和維護這些複雜的工作流程。

Julian 會評估選項,並選取最適合其需求的管 。 管道提供他建置複雜協調流程工作流程所需的視覺畫布和拖放活動。 此解決方案支援活動的邏輯分組、相依性管理及排程功能。 Pipelines 擁有 50+ 個連接器和各種活動類型(複製、查找、預存程序、Web 等),使他能夠靈活地協調各種任務,同時保持他喜歡的低程式碼方法。

場景 5

Darshan 是一位擁有豐富 Python 經驗的資料科學家。 他需要建立和維護複雜的資料處理工作流程,整合機器學習模型、自訂演算法和各種外部 API。 他的組織的資料科學團隊更喜歡程式碼優先的方法,並希望利用他們現有的 Python 專業知識,包括自訂函式庫和進階編排模式。

Darshan 需要一個支援基於 Python 的有向無環圖 (DAG) 的解決方案,可以處理任務之間的複雜依賴關係,並與團隊現有的 DevOps 流程整合。 這些工作流程涉及從多個來源擷取資料、特徵工程、模型訓練、批次評分,以及需要完整 Python 程式設計的彈性的自訂商務邏輯。 該團隊重視 Apache Airflow 的生態系統,並希望保持與現有工作流程的兼容性。

Darshan 審查了這些選項並選擇 Apache Airflow Jobs 作為理想的解決方案。 這種程式碼優先的方法讓他的團隊能夠利用他們的 Python 專業知識,同時建立複雜的資料處理工作流程。 Apache Airflow Jobs 提供他們熟悉的 DAG 型協調流程,透過 Airflow 生態系統支援 100+ 連接器,並允許他們使用 Python 實作自訂商務邏輯。 託管服務方法消除了基礎設施問題,同時保留了 Apache Airflow 的靈活性和強大功能。

場景 6

René 是一所研究型大學的資料科學家。 她需要對跨多種格式和來源儲存的大型資料集執行複雜的資料分析和轉換任務。 她的工作涉及統計分析、機器學習模型開發和自訂資料處理演算法,這些演算法需要分散式運算的全部功能。

René 處理結構化和非結構化數據,包括 CSV 文件、JSON 文檔、Parquet 文件和實時流。 她的分析需要複雜的轉換,例如跨多個大型資料集的聯結、聚合、統計計算以及在 Python 和 Scala 中實現的自訂演算法。 她需要在探索階段以互動方式工作的彈性,然後針對生產工作負載操作其程式碼。

René 評估她的選項並選擇 Notebooks 作為她的主要工具。 筆記本提供了她所需的代碼優先環境,可以完全訪問 Spark 的分佈式計算功能。 她可以使用數百個 Spark 函式庫,使用多種語言(Python、Scala、SQL、R)實現複雜的轉換,並使用互動式開發環境進行資料探索。 筆記本介面讓她能夠結合程式碼、視覺化和文件,同時提供滿足其大規模資料處理需求所需的高效能運算。

實務範例 7

Ako 是一家醫療保健組織的業務分析師。 她需要整合來自多個來源的資料,包括資料庫、Web 服務和檔案系統,以建立乾淨、業務就緒的資料集。 Ako 在 Excel 和 Power BI 方面的工作中擁有豐富的 Power Query 經驗,她更喜歡視覺化、無程式碼的介面來執行資料準備任務。

Ako 的職責包括清理醫療保健資料、應用業務規則、驗證資料品質以及建立輸入監管報告系統的標準化資料集。 資料來源包括病患管理系統、實驗室資訊系統和外部 API 服務。 她需要執行複雜的轉換,例如資料分析、重複刪除、醫療代碼標準化以及根據業務邏輯建立計算欄位。

Ako 檢閱可用的選項,並選取 Dataflow Gen 2 作為她的首選解決方案。 資料流程第 2 代提供她從其他 Microsoft 工具中知道的熟悉的 Power Query 體驗,同時提供增強的效能和功能。 憑藉 170+ 個內建連接器,她可以連接到所有不同的資料來源,透過視覺化介面應用 300+ 個轉換功能,並利用資料分析工具來確保資料品質。 無程式碼方法讓她專注於業務邏輯,而不是技術實作細節。

場景 8

Ash 是一家電信公司的產品經理。 她的團隊需要即時監控客戶支援指標,例如呼叫量、等待時間和客服人員績效,以確保滿足服務等級協定 (SLA)。 數據來自多個操作系統,包括 CRM、呼叫中心日誌和客服人員分配數據庫。

Ash 希望建立即時儀表板,並在違反閾值時觸發自動化工作流程 (例如,當等待時間超過 SLA 限制時)。 她還希望避免構建複雜的 ETL 管道或管理基礎設施。

Ash 會評估選項,並選取 Fabric Eventstreams。 透過 Eventstreams,她可以使用串流連接器從多個來源擷取資料、套用輕量型轉換,以及將事件路由至 Eventhouse 和 Data Activator 等目的地。 她設定了在幾秒鐘內更新的警報和儀表板,使她的團隊能夠快速回應營運問題。

Fabric Eventstreams 和 Real-Time Intelligence 提供 Ash 所需的低延遲、低程式碼體驗,以建立事件驅動的應用程式,而不會中斷現有系統。

開始

現在您已瞭解要使用的服務,您可以開始在 Microsoft Fabric 中建置資料整合解決方案。