共用方式為


設定 Microsoft SQL Server 以便導入至 Azure Databricks

使用 Lakeflow Connect 預覽將 SQL Server 的來源設定任務導入至 Azure Databricks。

變更追蹤與異動資料擷取

變更追蹤和異動數據擷取 (CDC) 可讓 Databricks 追蹤源數據表中的變更。 Databricks 建議針對具有主鍵的任何數據表使用變更追蹤,以將源資料庫的負載降到最低。 如果同時啟用變更追蹤和 CDC,SQL Server 連接器會使用變更追蹤。

方法 Description
變更追蹤 擷取資料表中資料列已變更的事實,但不會擷取實際作業。 變更追蹤確實需要數據表具有主鍵,但對源資料庫沒有太大影響的輕量型程式。
變更資料擷取 紀錄資料表中的每一項操作,顯示一段時間內所做變更的歷史視圖。 CDC 不需要數據表具有主鍵,但可能會對源資料庫的效能產生更大的影響。

如需這些選項的詳細資訊,請參閱 SQL Server 檔中的追蹤資料變更(SQL Server)。

來源設定工作概觀

您必須先在 SQL Server 中完成下列工作,才能將數據內嵌至 Azure Databricks:

  1. 確認您符合 SQL Server 版本需求:

    • 若要使用變更追蹤,您必須擁有 SQL Server 2012 或更新版本。
    • 若要使用 CDC,您必須有 SQL Server 2012 Service Pack 1 (SP1) 累積更新套件 3 (CU3) 或更新版本。 對於 SQL Server 2016 之前的版本,也需要 Enterprise Edition。
  2. 視需要設定防火牆設定。

  3. 在 SQL Server 中建立專用於 Databricks 匯入的資料庫使用者,並符合許可權需求

  4. 設定來源資料庫,包括權限管理、變更追蹤啟用和 CDC 啟用。 請參閱 使用公用程式物件指令碼準備 SQL Server 以進行資料匯入