Lakeflow Connect とは

Lakeflow Connect には、ローカルファイル、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバスなどのデータを取り込むためのシンプルで効率的なコネクタが用意されています。このページでは、Lakeflow Connect で ETL のパフォーマンスを向上させるいくつかの方法について説明します。また、フルマネージドコネクタから完全にカスタマイズ可能なフレームワークまで、一般的なユースケースとサポートされているインジェストツールの範囲についても説明します。

柔軟なサービスモデル

Lakeflow Connect は、エンタープライズアプリケーション、クラウドストレージ、データベース、メッセージバスなどの幅広いコネクタを提供します。また、次のいずれかを柔軟に選択できます。

Option	説明
フルマネージドサービス	シンプルな UI と強力な API を使用してデータアクセスを民主化する、すぐに使用できるコネクタ。これにより、長期的なメンテナンスコストを最小限に抑えながら、堅牢なインジェストパイプラインをすばやく作成できます。
カスタムパイプライン	さらにカスタマイズが必要な場合は、Lakeflow Spark 宣言パイプラインまたは構造化ストリーミングを使用できます。最終的に、この多様性により、Lakeflow Connect は組織の特定のニーズを満たすことができます。

コア Databricks ツールを使用した統合

Lakeflow Connect は、Databricks のコア機能を使用して、包括的なデータ管理を提供します。たとえば、Unity カタログを使用したガバナンス、Lakeflow ジョブを使用したオーケストレーション、パイプライン全体の包括的な監視が提供されます。これは、インジェストプロセスを他のデータエンジニアリングツールと統合しながら、組織がデータのセキュリティ、品質、コストを管理するのに役立ちます。 Lakeflow Connect は、オープンなデータインテリジェンスプラットフォーム上に構築されており、お好みのサードパーティ製ツールを柔軟に組み込むことができます。これにより、既存のインフラストラクチャと将来のデータ戦略に合わせて調整されたソリューションが保証されます。

高速でスケーラブルなインジェスト

Lakeflow Connect では、インジェストを効率的に行うために、増分読み取りと書き込みを使用します。ダウンストリームの増分変換と組み合わせると、ETL のパフォーマンスが大幅に向上します。

一般的なユースケース

お客様は、組織の最も困難な問題を解決するためにデータを取り込んでいます。ユースケースの例を次に示します。

利用シーン	説明
Customer 360（カスタマー360）	キャンペーンのパフォーマンスと顧客リードスコアリングの測定
ポートフォリオ管理	履歴モデルと予測モデルを使用した ROI の最大化
コンシューマー分析	顧客の購入エクスペリエンスのパーソナライズ
一元化された人事	組織の従業員をサポートする
デジタルツイン	製造効率の向上
RAG チャットボット	ユーザーがポリシーや製品などを理解できるようにチャットボットを構築する

ETL スタックのレイヤー

一部のコネクタは、ETL スタックの 1 つのレベルで動作します。たとえば、Databricks は、Salesforce などのエンタープライズアプリケーションや SQL Server などのデータベース用のフルマネージドコネクタを提供します。その他のコネクタは、ETL スタックの複数のレイヤーで動作します。たとえば、完全なカスタマイズには Structured Streaming で標準コネクタを使用し、より管理されたエクスペリエンスを実現するには Lakeflow Spark 宣言型パイプラインを使用できます。同様に、Apache Kafka、Amazon Kinesis、Google Pub/Sub、Apache Pulsar からデータをストリーミングするためのカスタマイズのレベルを選択できます。

ETL スタック図

Databricks では、最も管理されているレイヤーから開始することをお勧めします。要件を満たしていない場合 (データソースがサポートされていない場合など)、次のレイヤーにドロップダウンします。 Databricks では、3 つのレイヤーすべてにさらに多くのコネクタのサポートを拡張する予定です。

次の表は、最もカスタマイズ可能なものから最も管理された製品まで順に並べ替えられたインジェスト製品の 3 つのレイヤーを示しています。

レイヤー	説明
構造化ストリーミング	構造化ストリーミングは、ほぼリアルタイムで増分ストリーム処理を行う API です。高い性能、スケーラビリティ、耐障害性を提供します。
Lakeflow Spark 宣言型パイプライン	Lakeflow Spark 宣言型パイプラインは、構造化ストリーミング上に構築され、データパイプラインを作成するための宣言型フレームワークを提供します。データに対して実行する変換を定義できます。Lakeflow Spark 宣言パイプラインでは、オーケストレーション、監視、データ品質、エラーなどを管理します。そのため、構造化ストリーミングよりも自動化が増え、オーバーヘッドが少なくなります。
フルマネージドコネクタ	フルマネージドコネクタは、Lakeflow Spark 宣言型パイプライン上に構築され、最も一般的なデータソースに対してさらに自動化を提供します。また、Lakeflow Spark 宣言パイプライン機能を拡張して、ソース固有の認証、CDC、エッジケース処理、長期的な API メンテナンス、自動再試行、自動スキーマの進化などを含めます。そのため、サポートされているデータソースに対してさらに自動化が提供されます。

マネージドコネクタ

フルマネージドコネクタを使用して、エンタープライズアプリケーションとデータベースから取り込むことができます。

サポートされるコネクタは次のとおりです。

サポートされているインターフェイスは次のとおりです。

Databricks ユーザーインターフェース
Databricks アセットバンドル
Databricks API
Databricks SDK
Databricks コマンドラインインターフェース (CLI)

標準コネクタ

マネージドコネクタに加えて、Databricks には、クラウドオブジェクトストレージとメッセージバス用のカスタマイズ可能なコネクタが用意されています。 Lakeflow Connect の標準コネクタを参照してください。

ファイルのアップロードとダウンロード

ローカルネットワーク上にあるファイル、ボリュームにアップロードされたファイル、またはインターネット上の場所からダウンロードされたファイルを取り込むことができます。「ファイル」を参照してください。

インジェストパートナー

多くのサードパーティ製ツールでは、Databricks へのバッチインジェストまたはストリーミングインジェストがサポートされています。 Databricks ではさまざまなサードパーティの統合が検証されますが、ソースシステムへのアクセスを構成し、データを取り込む手順はツールによって異なります。検証済みツール一覧については、インジェストパートナーのを参照してください。一部のテクノロジパートナーは、サードパーティのツールを Lakehouse データに簡単に接続できる UI を備えた Databricks Partner Connect でも紹介されています。

DIY インジェスト

Databricks には、一般的なコンピューティングプラットフォームが用意されています。その結果、Python や Java など、Databricks でサポートされている任意のプログラミング言語を使用して、独自のインジェストコネクタを作成できます。データ読み込みツール、Airbyte、Debezium などの一般的なオープンソースコネクタライブラリをインポートして使用することもできます。

摂取の代替手段

Databricks では、大量のデータ、待機時間の短いクエリ、サードパーティ製の API の制限に対応するようにスケーリングされるため、ほとんどのユースケースでインジェストをお勧めします。インジェストでは、ソースシステムから Azure Databricks にデータがコピーされるため、重複するデータが時間の経過と同時に古くなる可能性があります。データをコピーしない場合は、次のツールを使用できます。

ツール	説明
レイクハウスフェデレーション	データを移動せずに外部データソースに対してクエリを実行できます。
デルタ・シェアリング	プラットフォーム、クラウド、リージョン間でデータを安全に共有できます。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-11-05