Azure Databricks へのインジェスト用に PostgreSQL を構成する

Important

Lakeflow Connect 用 PostgreSQL コネクタはパブリックプレビュー段階です。パブリックプレビューに登録する場合は、Databricks アカウントチームにお問い合わせください。

このページでは、Lakeflow Connect を使用して PostgreSQL から Azure Databricks に取り込むためのソースセットアップタスクについて説明します。

変更データキャプチャの論理レプリケーション

PostgreSQL コネクタは、論理レプリケーションを使用してソーステーブルの変更を追跡します。論理レプリケーションを使用すると、ソースデータベースに対するトリガーや大きなオーバーヘッドを必要とせずに、コネクタでデータの変更 (挿入、更新、削除) をキャプチャできます。

Lakeflow PostgreSQL 論理レプリケーションには、次のものが必要です。

Lakeflow Connect では、PostgreSQL バージョン 13 以降からのデータレプリケーションがサポートされています。
論理レプリケーション用にデータベースを構成します。

PostgreSQL パラメーター wal_level を logicalに設定する必要があります。
レプリケートするすべてのテーブルを含むパブリケーションを作成します。
レプリケートされるカタログごとにレプリケーションスロットを作成します。

注

レプリケーションスロットを作成する前に、パブリケーションを作成する必要があります。

論理レプリケーションの詳細については、PostgreSQL Web サイトの論理レプリケーションに関するドキュメントを参照してください。

ソースセットアップタスクの概要

Azure Databricks にデータを取り込む前に、PostgreSQL で次のタスクを完了します。

PostgreSQL 13 以降を確認する
ネットワークアクセス (セキュリティグループ、ファイアウォール規則、または VPN) を構成する
論理レプリケーションを構成します。
- 論理レプリケーションを有効にする (wal_level = logical)
- 必要な特権を持つレプリケーションユーザーを作成します。 PostgreSQL データベースのユーザー要件を確認する
- テーブルのレプリカ ID を設定します。テーブルのレプリカ ID の設定を参照してください
- パブリケーションとレプリケーションスロットの作成
省略可能: スキーマ変更の自動検出用にインライン DDL 追跡を構成します。インライン DDL 追跡を選択する場合は、Databricks のサポートにお問い合わせください。

Important

複数の PostgreSQL データベースからレプリケートする場合は、データベースごとに個別のパブリケーションとレプリケーションスロットを作成する必要があります。インライン DDL 追跡スクリプト (使用されている場合) も各データベースで実行する必要があります。

論理レプリケーションを構成する

PostgreSQL で論理レプリケーションを有効にするには、データベース設定を構成し、必要なオブジェクトを設定します。

WAL レベルを論理レベルに設定する

Write-Ahead ログ (WAL) は、論理レプリケーション用に構成する必要があります。通常、この設定にはデータベースの再起動が必要です。

現在の wal_level 設定を確認します。
```
SHOW wal_level;
```
値が logicalされていない場合は、サーバー構成で wal_level = logical 設定し、PostgreSQL サービスを再起動します。

レプリケーションユーザーの作成

レプリケーション特権を持つ Databricks インジェスト専用ユーザーを作成します。

CREATE USER databricks_replication WITH PASSWORD 'your_secure_password';
GRANT CONNECT ON DATABASE your_database TO databricks_replication;
ALTER USER databricks_replication WITH REPLICATION;

特権の詳細な要件については、 PostgreSQL データベースのユーザー要件に関する記事を参照してください。

テーブルのレプリカ ID を設定する

レプリケートするテーブルごとに、レプリカ ID を構成します。正しい設定は、テーブル構造によって異なります。

テーブル構造	必要なレプリカ ID	Command
テーブルには主キーがあり、TOASTable 列 (たとえば、 `TEXT`、 `BYTEA`、大きな値を持つ `VARCHAR(n)` ) は含まれません。	`DEFAULT`	`ALTER TABLE schema_name.table_name REPLICA IDENTITY DEFAULT;`
テーブルには主キーがありますが、大きな可変長 (TOASTable) 列が含まれています。	`FULL`	`ALTER TABLE schema_name.table_name REPLICA IDENTITY FULL;`
テーブルに主キーがありません	`FULL`	`ALTER TABLE schema_name.table_name REPLICA IDENTITY FULL;`

レプリカ ID の設定の詳細については、PostgreSQL ドキュメントのレプリカ ID を参照してください。

パブリケーションを作成する

レプリケートするテーブルを含むパブリケーションを各データベースに作成します。

-- Create a publication for specific tables
CREATE PUBLICATION databricks_publication FOR TABLE schema_name.table1, schema_name.table2;

-- Or create a publication for all tables in a database
CREATE PUBLICATION databricks_publication FOR ALL TABLES;

注

レプリケートする PostgreSQL データベースごとに個別のパブリケーションを作成する必要があります。

レプリケーションスロットのパラメーターを構成する

レプリケーションスロットを作成する前に、次のサーバーパラメーターを構成します。

レプリケーションスロットの WAL リテンション期間を制限する

パラメーター: max_slot_wal_keep_size

(既定値) にmax_slot_wal_keep_size-1。これにより、遅延または非アクティブなレプリケーションスロットによるリテンションにより無制限の WAL が肥大化する可能性があるためです。ワークロードに応じて、このパラメーターを有限値に設定します。

max_slot_wal_keep_sizeパラメーターの詳細については、PostgreSQL の公式ドキュメントを参照してください。

注

一部のマネージドクラウドプロバイダーでは、このパラメーターの変更を許可せず、代わりに組み込みのスロット監視と自動クリーンアップに依存しています。運用アラートを設定する前に、プラットフォームの動作を確認します。

詳細については、以下を参照してください。

レプリケーションスロットの容量を構成する

パラメーター: max_replication_slots

レプリケートされる各 PostgreSQL データベースには、1 つの論理レプリケーションスロットが必要です。このパラメーターを、レプリケートするデータベースの数と、既存のレプリケーションのニーズに少なくとも設定します。

WAL 送信者を構成する

パラメーター: max_wal_senders

このパラメーターは、WAL データをサブスクライバーにストリーミングする同時 WAL 送信側プロセスの最大数を定義します。ほとんどの場合、効率的で一貫性のあるデータレプリケーションを確保するために、レプリケーションスロットごとに 1 つの WAL 送信側プロセスが必要です。

max_wal_sendersは、使用されているレプリケーションスロットの数と少なくとも同じになるように構成し、その他の既存の使用量を計算します。運用の柔軟性を提供するために、少し高く設定することをお勧めします。

レプリケーションスロットを作成する

Databricks インジェストゲートウェイが変更の追跡に使用するレプリケーションスロットを各データベースに作成します。

-- Create a replication slot with the pgoutput plugin
SELECT pg_create_logical_replication_slot('databricks_slot', 'pgoutput');

Important

レプリケーションスロットは、コネクタによって使用されるまで WAL データを保持します。 WAL リテンション期間を制限し、無制限の WAL の増加を防ぐために、 max_slot_wal_keep_size パラメーターを構成します。詳細については、レプリケーションスロットパラメーターの構成を参照してください。
インジェストパイプラインを削除する場合は、関連付けられているレプリケーションスロットを手動で削除する必要があります。レプリケーションスロットのクリーンアップを参照してください。

省略可能: インライン DDL 追跡を構成する

インライン DDL 追跡は、コネクタがソースデータベースからのスキーマ変更を自動的に検出して適用できるようにするオプションの機能です。この機能は、既定では無効化されています。

Warnung

インライン DDL 追跡は現在プレビュー段階であり、ワークスペースで有効にするには Databricks サポートに問い合わせる必要があります。

どのスキーマ変更が自動的に処理され、どのスキーマが完全に更新される必要があるかについては、「マネージドコネクタでスキーマの進化をどのように処理するか」と「スキーマの進化」を参照してください。

インライン DDL 追跡を設定する

ワークスペースでインライン DDL 追跡が有効になっている場合は、 各 PostgreSQL データベースで次の手順を実行します。

lakeflow_pg_ddl_change_tracking.sql スクリプトをダウンロードして実行します。
```
\i lakeflow_pg_ddl_change_tracking.sql
```

トリガーと監査テーブルが正常に作成されたことを確認します。

-- Check for the DDL audit table
SELECT * FROM pg_tables WHERE tablename = 'lakeflow_ddl_audit';

-- Check for the event triggers
SELECT * FROM pg_event_trigger WHERE evtname LIKE 'lakeflow%';

DDL 監査テーブルをパブリケーションに追加します。

ALTER PUBLICATION databricks_publication ADD TABLE public.lakeflow_ddl_audit;

クラウド固有の構成に関する注意事項

AWS RDS と Aurora

rds.logical_replication パラメーターがパラメーターグループ内で1に設定されていることを確認します。
Databricks ワークスペースからの接続を許可するようにセキュリティグループを構成します。
レプリケーションユーザーには、 rds_replication ロールが必要です。
```
GRANT rds_replication TO databricks_replication;
```

Azure Database for PostgreSQL

Azure portal または CLI を使用して、サーバーパラメーターで論理レプリケーションを有効にします。
Databricks ワークスペースからの接続を許可するようにファイアウォール規則を構成します。
フレキシブルサーバーでは、論理レプリケーションがサポートされています。単一サーバーの場合は、サポートされているレベルを使用していることを確認します。

GCP Cloud SQL for PostgreSQL

インスタンス設定で cloudsql.logical_decoding フラグを有効にします。
Databricks ワークスペースからの接続を許可するように、承認されたネットワークを構成します。
pglogical 拡張機能を使用している場合は、 cloudsql.enable_pglogical フラグが on に設定されていることを確認します。

構成を確認する

セットアップタスクが完了したら、論理レプリケーションが正しく構成されていることを確認します。

wal_levelがlogicalに設定されていることを確認します。
```
SHOW wal_level;
```
レプリケーションユーザーが replication 特権を持っていることを確認します。
```
SELECT rolname, rolreplication FROM pg_roles WHERE rolname = 'databricks_replication';
```

パブリケーションが存在することを確認します。

SELECT * FROM pg_publication WHERE pubname = 'databricks_publication';

レプリケーションスロットが存在することを確認します。

SELECT slot_name, slot_type, active, restart_lsn
FROM pg_replication_slots
WHERE slot_name = 'databricks_slot';

テーブルのレプリカ ID を確認します。

SELECT schemaname, tablename, relreplident
FROM pg_tables t
JOIN pg_class c ON t.tablename = c.relname
WHERE schemaname = 'your_schema';

relreplident列には、FULL レプリカ ID のfが表示されます。

次のステップ

ソースのセットアップが完了したら、インジェストゲートウェイとパイプラインを作成して PostgreSQL からデータを取り込むことができます。 PostgreSQL からのデータの取り込みを参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-12-19

次の方法で共有

Azure Databricks へのインジェスト用に PostgreSQL を構成する

変更データ キャプチャの論理レプリケーション

ソースセットアップタスクの概要

論理レプリケーションを構成する

WAL レベルを論理レベルに設定する

レプリケーション ユーザーの作成

テーブルのレプリカ ID を設定する

パブリケーションを作成する

レプリケーション スロット のパラメーターを構成する

レプリケーション スロットの WAL リテンション期間を制限する

レプリケーション スロットの容量を構成する

WAL 送信者を構成する

レプリケーション スロットを作成する

省略可能: インライン DDL 追跡を構成する

インライン DDL 追跡を設定する

クラウド固有の構成に関する注意事項

AWS RDS と Aurora

Azure Database for PostgreSQL

GCP Cloud SQL for PostgreSQL

構成を確認する

次のステップ

フィードバック

その他のリソース

変更データキャプチャの論理レプリケーション

レプリケーションユーザーの作成

レプリケーションスロットのパラメーターを構成する

レプリケーションスロットの WAL リテンション期間を制限する

レプリケーションスロットの容量を構成する

レプリケーションスロットを作成する