重要
この機能は パブリック プレビュー段階です。
StreamSets は、データ フローをライフサイクル全体で管理し、監視するのに役立ちます。 StreamSets の Azure Databricks と Delta Lake とのネイティブ統合により、さまざまなソースからデータを取得し、パイプラインを簡単に管理できます。
StreamSets の一般的なデモについては、次の YouTube ビデオ (10 分) をご覧ください。
Azure Databricks で StreamSets を使用する手順を次に示します。
手順 1: Databricks 個人用アクセス トークンを生成する
StreamSets は、Azure Databricks 個人用アクセス トークンを使用して、Azure Databricks との認証を行います。
注意
セキュリティのベスト プラクティスとして、自動化されたツール、システム、スクリプト、アプリを使用して認証する場合、Databricks では、ワークスペース ユーザーではなく サービス プリンシパル に属する個人用アクセス トークンを使用することをお勧めします。 サービス プリンシパルのトークンを作成するには、サービス プリンシパル のトークンの管理に関するページを参照してください。
手順 2: 統合のニーズをサポートするようにクラスターを設定する
StreamSets は Azure Data Lake Storage パスにデータを書き込み、Azure Databricks 統合クラスターは、その場所からデータを読み取ります。 そのため、統合クラスターには、Azure Data Lake Storage パスへのセキュリティで保護されたアクセスが必要です。
Azure Data Lake Storage パスへのアクセスをセキュリティで保護する
Azure Data Lake Storage (ADLS) のデータへのアクセスをセキュリティで保護するには、Azure ストレージ アカウント アクセス キー (推奨) または Microsoft Entra ID サービス プリンシパルを使用できます。
Azure ストレージ アカウント アクセス キーを使用する
Spark 構成の一部として、統合クラスターでストレージ アカウントのアクセス キーを構成できます。 ストレージ アカウントが、ステージング データに使用される ADLS コンテナーとファイル システム、Delta Lake テーブルを書き込む ADLS コンテナーとファイル システムにアクセスできることを確認します。 キーを使用するように統合クラスターを構成するには、「 Azure Data Lake Storage と Blob Storage への接続」の手順に従います。
Microsoft Entra ID サービス プリンシパルを使用する
Spark 構成の一部として、Azure Databricks 統合クラスターでサービス プリンシパルを構成できます。 サービス プリンシパルが、ステージング データに使用される ADLS コンテナーと、Delta テーブルを書き込む ADLS コンテナーにアクセスできることを確認します。 サービス プリンシパルを使用するように統合クラスターを構成するには、「サービス プリンシパルを使用して ADLS にアクセスする」の手順に従います。
クラスター構成の指定
クラスター モードを Standard に設定します。
Databricks ランタイム バージョンをランタイムに設定します: 6.3 以降。
Spark 構成に次のプロパティを追加して、最適化された書き込みと自動圧縮を有効にします。
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true統合とスケーリングのニーズに応じて、クラスターを構成します。
クラスター構成の詳細については、「 コンピューティング構成リファレンス」を参照してください。
JDBC URL と HTTP パス を取得する手順については、Azure Databricks コンピューティング リソースの接続の詳細 を取得するを参照してください。
手順 3: クラスターに接続するための JDBC と ODBC の接続の詳細を取得する
Azure Databricks クラスターを StreamSets に接続するには、次の JDBC/ODBC 接続プロパティが必要です。
- JDBC URL
- HTTP パス
手順 4: Azure Databricks の StreamSets を取得する
まだ StreamSets アカウントを持っていない場合は、Databricks の StreamSets にサインアップします。 あなたは無料で開始し、準備ができたらアップグレードすることができます。 StreamSets DataOps Platform の価格を参照してください。
手順 5: StreamSets を使用して Delta Lake にデータを読み込む方法を学習する
サンプル パイプラインから始めるか、 Databricks Delta Lake へのデータの読み込みを 参照して、Delta Lake にデータを取り込むパイプラインを構築する方法について説明します。