使用 Lakeflow Connect 預覽將 SQL Server 的來源設定任務導入至 Azure Databricks。
變更追蹤與異動資料擷取
變更追蹤和異動數據擷取 (CDC) 可讓 Databricks 追蹤源數據表中的變更。 Databricks 建議針對具有主鍵的任何數據表使用變更追蹤,以將源資料庫的負載降到最低。 如果同時啟用變更追蹤和 CDC,SQL Server 連接器會使用變更追蹤。
| 方法 | Description |
|---|---|
| 變更追蹤 | 擷取資料表中資料列已變更的事實,但不會擷取實際作業。 變更追蹤確實需要數據表具有主鍵,但對源資料庫沒有太大影響的輕量型程式。 |
| 變更資料擷取 | 紀錄資料表中的每一項操作,顯示一段時間內所做變更的歷史視圖。 CDC 不需要數據表具有主鍵,但可能會對源資料庫的效能產生更大的影響。 |
如需這些選項的詳細資訊,請參閱 SQL Server 檔中的追蹤資料變更(SQL Server)。
來源設定工作概觀
您必須先在 SQL Server 中完成下列工作,才能將數據內嵌至 Azure Databricks:
確認您符合 SQL Server 版本需求:
- 若要使用變更追蹤,您必須擁有 SQL Server 2012 或更新版本。
- 若要使用 CDC,您必須有 SQL Server 2012 Service Pack 1 (SP1) 累積更新套件 3 (CU3) 或更新版本。 對於 SQL Server 2016 之前的版本,也需要 Enterprise Edition。
視需要設定防火牆設定。
在 SQL Server 中建立專用於 Databricks 匯入的資料庫使用者,並符合許可權需求。
設定來源資料庫,包括權限管理、變更追蹤啟用和 CDC 啟用。 請參閱 使用公用程式物件指令碼準備 SQL Server 以進行資料匯入。