Lakeflow Connect 提供簡單且有效率的連接器,從本機檔案、熱門的企業應用程式、資料庫、雲端記憶體、訊息總線等擷取數據。 此頁面概述 Lakeflow Connect 可以改善 ETL 效能的一些方式。 它也涵蓋常見的使用案例和支援的擷取工具範圍,從完全受控連接器到可完全自定義的架構。
彈性服務模型
Lakeflow Connect 為企業應用程式、雲端記憶體、資料庫、訊息總線等提供廣泛的連接器。 它也可讓您彈性地選擇下列各項:
| 選項 | 說明 |
|---|---|
| 完全受控的服務 | 開箱即用的連接器,使資料存取通過簡便的介面和強大的API變得普及化。 這可讓您快速建立強大的擷取管線,同時將長期維護成本降至最低。 |
| 自訂管線 | 如果您需要更多自訂,可以使用 Lakeflow Spark 宣告式管線或結構化串流。 最後,這種多功能性可讓 Lakeflow Connect 符合貴組織的特定需求。 |
使用核心 Databricks 工具進行統一
Lakeflow Connect 使用核心 Databricks 功能來提供完整的數據管理。 例如,它提供使用 Unity Catalog 的管理、使用 Lakeflow Jobs 的工作流程協作,以及對整個管線的全方位監控。 這有助於組織管理數據安全性、品質和成本,同時將擷取程式與其他數據工程工具統一。 Lakeflow Connect 建置在開放式 Data Intelligence Platform 上,具有充分彈性以納入您慣用的第三方工具。 這可確保量身打造的解決方案,符合您現有的基礎結構和未來的數據策略。
快速、可擴展的擷取
Lakeflow Connect 使用增量讀取和寫入來提高資料擷取的效率。 與 下游累加轉換結合時,這可以大幅改善 ETL 效能。
常見使用案例
客戶擷取數據以解決其組織最具挑戰性的問題。 範例使用案例包括下列專案:
| 用例 | 說明 |
|---|---|
| 客戶全景360 | 衡量活動成效及潛在客戶評分 |
| 投資組合管理 | 使用歷程記錄和預測模型將 ROI 最大化 |
| 取用者分析 | 個人化客戶的購買體驗 |
| 集中式人力資源 | 支援貴組織的員工 |
| 數位雙胞胎 | 提高製造效率 |
| RAG 聊天機器人 | 建置聊天機器人以協助使用者了解原則、產品等等 |
ETL 堆疊的圖層
某些連接器會在 ETL 堆疊的一個層級運作。 例如,Databricks 為 Salesforce 等企業應用程式提供完全受控的連接器,以及 SQL Server 等資料庫。 其他連接器會在 ETL 堆疊的多層運作。 例如,您可以在結構化串流中使用標準連接器進行完整自訂,或使用 Lakeflow Spark 宣告式管線來取得更受控的體驗。 您可以選擇您希望的自定義程度來從 Apache Kafka、Amazon Kinesis、Google Pub/Sub 和 Apache Pulsar 串流數據。
Databricks 建議從最受控層開始。 如果它不符合您的需求(例如,如果不支援您的數據源),請下拉至下一層。 Databricks 計劃擴充所有三個層級對更多連接器的支援。
下表描述三層擷取產品,從最可自定義到最受控的產品排序:
| 層 | 說明 |
|---|---|
| 結構化串流 | 結構化串流是一種 API,可近乎即時地進行增量串流處理。 它提供強大的效能、延展性和容錯能力。 |
| Lakeflow Spark 宣告式管線 | Lakeflow Spark 宣告式管線以結構化串流為基礎,提供用於建立資料管線的宣告式架構。 您可以定義要對資料執行的轉換,而 Lakeflow Spark 宣告式管線會管理協調流程、監視、資料品質、錯誤等等。 因此,其可提供比結構化串流更多的自動化和較少的額外負荷。 |
| 完全受控連接器 | 以 Lakeflow Spark 宣告式管線為基礎的全受控連接器,為最受歡迎的資料來源提供更多自動化功能。 它們擴充 Lakeflow Spark 宣告式管線功能,也包括來源特定的驗證、CDC、邊緣案例處理、長期 API 維護、自動重試、自動化結構描述演進等。 因此,它們為任何支援的數據來源提供更高程度的自動化。 |
受控連接器
您可以使用完全受控的連接器,從企業應用程式和資料庫內嵌。
支援的連接器包括:
支援的介面包括:
- Databricks 使用者介面
- Databricks 資產套件組合
- Databricks API 介面
- Databricks SDK
- Databricks 命令行介面
標準連接器
除了受控連接器之外,Databricks 還提供雲端物件儲存和訊息總線的可自定義連接器。 請參閱 Lakeflow Connect 中的標準連接器。
檔案上傳和下載
您可以擷取位於局域網路上的檔案、已上傳至磁碟區的檔案,或從因特網位置下載的檔案。 請參閱 檔案。
資料導入合作夥伴
許多第三方工具支援批次或串流的數據匯入至 Databricks。 Databricks 會驗證各種第三方整合,不過設定來源系統的存取權和內嵌數據的步驟會因工具而異。 如需已驗證的工具清單,請參閱 擷取合作夥伴。 Databricks Partner Connect 中也提供一些技術合作夥伴,其 UI 可簡化第三方工具與 Lakehouse 數據的連線。
DIY 匯入
Databricks 提供一般計算平臺。 因此,您可以使用 Databricks 所支援的任何程式設計語言,例如 Python 或 Java 來建立自己的擷取連接器。 您也可以匯入和使用熱門的開放原始碼連接器連結庫,例如數據載入工具、Airbyte 和 Debezium。
攝取替代方案
Databricks 建議針對大部分使用案例進行擷取,因為它會調整以容納高數據量、低延遲查詢和第三方 API 限制。 資料匯入會將資料從來源系統複製到 Azure Databricks,這可能會導致重複資料隨著時間變得過時。 如果您不想複製資料,您可以使用下列工具:
| 工具 | 說明 |
|---|---|
| Lakehouse 聯盟 | 可讓您在不移動資料的情況下查詢外部數據來源。 |
| Delta 數據共享 | 可讓您安全地跨平臺、雲端和區域共享數據。 |