Lakeflow Connect には、ローカル ファイル、一般的なエンタープライズ アプリケーション、データベース、クラウド ストレージ、メッセージ バスなどのデータを取り込むためのシンプルで効率的なコネクタが用意されています。 このページでは、Lakeflow Connect で ETL のパフォーマンスを向上させるいくつかの方法について説明します。 また、フル マネージド コネクタから完全にカスタマイズ可能なフレームワークまで、一般的なユース ケースとサポートされているインジェスト ツールの範囲についても説明します。
柔軟なサービス モデル
Lakeflow Connect は、エンタープライズ アプリケーション、クラウド ストレージ、データベース、メッセージ バスなどの幅広いコネクタを提供します。 また、次のいずれかを柔軟に選択できます。
| Option | 説明 |
|---|---|
| フル マネージド サービス | シンプルな UI と強力な API を使用してデータ アクセスを民主化する、すぐに使用できるコネクタ。 これにより、長期的なメンテナンス コストを最小限に抑えながら、堅牢なインジェスト パイプラインをすばやく作成できます。 |
| カスタム パイプライン | さらにカスタマイズが必要な場合は、Lakeflow Spark 宣言パイプラインまたは構造化ストリーミングを使用できます。 最終的に、この多様性により、Lakeflow Connect は組織の特定のニーズを満たすことができます。 |
コア Databricks ツールを使用した統合
Lakeflow Connect は、Databricks のコア機能を使用して、包括的なデータ管理を提供します。 たとえば、Unity カタログを使用したガバナンス、Lakeflow ジョブを使用したオーケストレーション、パイプライン全体の包括的な監視が提供されます。 これは、インジェスト プロセスを他のデータ エンジニアリング ツールと統合しながら、組織がデータのセキュリティ、品質、コストを管理するのに役立ちます。 Lakeflow Connect は、オープンなデータ インテリジェンス プラットフォーム上に構築されており、お好みのサード パーティ製ツールを柔軟に組み込むことができます。 これにより、既存のインフラストラクチャと将来のデータ戦略に合わせて調整されたソリューションが保証されます。
高速でスケーラブルなインジェスト
Lakeflow Connect では、インジェストを効率的に行うために、増分読み取りと書き込みを使用します。 ダウンストリームの増分変換と組み合わせると、ETL のパフォーマンスが大幅に向上します。
一般的なユース ケース
お客様は、組織の最も困難な問題を解決するためにデータを取り込んでいます。 ユース ケースの例を次に示します。
| 利用シーン | 説明 |
|---|---|
| Customer 360(カスタマー360) | キャンペーンのパフォーマンスと顧客リードスコアリングの測定 |
| ポートフォリオ管理 | 履歴モデルと予測モデルを使用した ROI の最大化 |
| コンシューマー分析 | 顧客の購入エクスペリエンスのパーソナライズ |
| 一元化された人事 | 組織の従業員をサポートする |
| デジタル ツイン | 製造効率の向上 |
| RAG チャットボット | ユーザーがポリシーや製品などを理解できるようにチャットボットを構築する |
ETL スタックのレイヤー
一部のコネクタは、ETL スタックの 1 つのレベルで動作します。 たとえば、Databricks は、Salesforce などのエンタープライズ アプリケーションや SQL Server などのデータベース用のフル マネージド コネクタを提供します。 その他のコネクタは、ETL スタックの複数のレイヤーで動作します。 たとえば、完全なカスタマイズには Structured Streaming で標準コネクタを使用し、より管理されたエクスペリエンスを実現するには Lakeflow Spark 宣言型パイプラインを使用できます。 同様に、Apache Kafka、Amazon Kinesis、Google Pub/Sub、Apache Pulsar からデータをストリーミングするためのカスタマイズ のレベルを選択できます。
Databricks では、最も管理されているレイヤーから開始することをお勧めします。 要件を満たしていない場合 (データ ソースがサポートされていない場合など)、次のレイヤーにドロップダウンします。 Databricks では、3 つのレイヤーすべてにさらに多くのコネクタのサポートを拡張する予定です。
次の表は、最もカスタマイズ可能なものから最も管理された製品まで順に並べ替えられたインジェスト製品の 3 つのレイヤーを示しています。
| レイヤー | 説明 |
|---|---|
| 構造化ストリーミング | 構造化ストリーミングは、ほぼリアルタイムで増分ストリーム処理を行う API です。 高い性能、スケーラビリティ、耐障害性を提供します。 |
| Lakeflow Spark 宣言型パイプライン | Lakeflow Spark 宣言型パイプラインは、構造化ストリーミング上に構築され、データ パイプラインを作成するための宣言型フレームワークを提供します。 データに対して実行する変換を定義できます。Lakeflow Spark 宣言パイプラインでは、オーケストレーション、監視、データ品質、エラーなどを管理します。 そのため、構造化ストリーミングよりも自動化が増え、オーバーヘッドが少なくなります。 |
| フル マネージド コネクタ | フル マネージド コネクタは、Lakeflow Spark 宣言型パイプライン上に構築され、最も一般的なデータ ソースに対してさらに自動化を提供します。 また、Lakeflow Spark 宣言パイプライン機能を拡張して、ソース固有の認証、CDC、エッジ ケース処理、長期的な API メンテナンス、自動再試行、自動スキーマの進化などを含めます。 そのため、サポートされているデータ ソースに対してさらに自動化が提供されます。 |
マネージド コネクタ
フル マネージド コネクタを使用して、エンタープライズ アプリケーションとデータベースから取り込むことができます。
サポートされるコネクタは次のとおりです。
サポートされているインターフェイスは次のとおりです。
- Databricks ユーザーインターフェース
- Databricks アセット バンドル
- Databricks API
- Databricks SDK
- Databricks コマンドラインインターフェース (CLI)
標準コネクタ
マネージド コネクタに加えて、Databricks には、クラウド オブジェクト ストレージとメッセージ バス用のカスタマイズ可能なコネクタが用意されています。 Lakeflow Connect の標準コネクタを参照してください。
ファイルのアップロードとダウンロード
ローカル ネットワーク上にあるファイル、ボリュームにアップロードされたファイル、またはインターネット上の場所からダウンロードされたファイルを取り込むことができます。 「ファイル」を参照してください。
インジェスト パートナー
多くのサード パーティ製ツールでは、Databricks へのバッチインジェストまたはストリーミング インジェストがサポートされています。 Databricks ではさまざまなサード パーティの統合が検証されますが、ソース システムへのアクセスを構成し、データを取り込む手順はツールによって異なります。 検証済みツール 一覧については、インジェスト パートナーの を参照してください。 一部のテクノロジ パートナーは、サードパーティのツールを Lakehouse データに簡単に接続できる UI を備えた Databricks Partner Connect でも紹介されています。
DIY インジェスト
Databricks には、一般的なコンピューティング プラットフォームが用意されています。 その結果、Python や Java など、Databricks でサポートされている任意のプログラミング言語を使用して、独自のインジェスト コネクタを作成できます。 データ読み込みツール、Airbyte、Debezium などの一般的なオープン ソース コネクタ ライブラリをインポートして使用することもできます。
摂取の代替手段
Databricks では、大量のデータ、待機時間の短いクエリ、サードパーティ製の API の制限に対応するようにスケーリングされるため、ほとんどのユース ケースでインジェストをお勧めします。 インジェストでは、ソース システムから Azure Databricks にデータがコピーされるため、重複するデータが時間の経過と同時に古くなる可能性があります。 データをコピーしない場合は、次のツールを使用できます。
| ツール | 説明 |
|---|---|
| レイクハウスフェデレーション | データを移動せずに外部データ ソースに対してクエリを実行できます。 |
| デルタ・シェアリング | プラットフォーム、クラウド、リージョン間でデータを安全に共有できます。 |