Lakeflow Connect を使用して、SQL Server から Azure Databricks へのソース セットアップ タスクのインジェストをプレビューします。
変更の追跡と変更データ キャプチャ
変更の追跡と変更データ キャプチャ (CDC) により、Databricks はソース テーブルの変更を追跡できます。 Databricks では、ソース データベースの負荷を最小限に抑えるために、主キーを持つテーブルに変更追跡を使用することをお勧めします。 変更の追跡と CDC の両方が有効になっている場合、SQL Server コネクタでは変更の追跡が使用されます。
| メソッド | Description |
|---|---|
| 変更追跡 | テーブル内の行が変更されたが、実際の操作はキャプチャされないという事実をキャプチャします。 変更の追跡では、テーブルに主キーが必要ですが、ソース データベースに大きな影響を与えない軽量プロセスです。 |
| 変更データ キャプチャ | テーブルのすべての操作をキャプチャし、時間の経過に伴って行われた変更に関する履歴ビューが含まれます。 CDC では、テーブルに主キーが含まれている必要はありませんが、ソース データベースのパフォーマンスに大きな影響を与える可能性があります。 |
これらのオプションの詳細については、 SQL Server ドキュメントの「データ変更の追跡 (SQL Server)」 を参照してください。
ソースセットアップタスクの概要
Azure Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。
SQL Server のバージョン要件を満たしていることを確認します。
- 変更の追跡を使用するには、SQL Server 2012 以降が必要です。
- CDC を使用するには、SQL Server 2012 Service Pack 1 (SP1) の累積的な更新プログラム パッケージ 3 (CU3) 以降が必要です。 SQL Server 2016 より前のバージョンでは、Enterprise Edition も必要です。
必要に応じて、ファイアウォール設定を構成します。
Databricks インジェスト専用で 、特権要件を満たすデータベース ユーザーを SQL Server に作成します。
アクセス許可の管理、変更の追跡の有効化、CDC の有効化など、ソース データベースを設定します。 ユーティリティ オブジェクト スクリプトを使用したインジェストのための SQL Server の準備を参照してください。