次の方法で共有


StreamSets に接続する

StreamSets は、データ フローをライフサイクル全体で管理し、監視するのに役立ちます。 StreamSets の Azure Databricks と Delta Lake とのネイティブ統合により、さまざまなソースからデータを取得し、パイプラインを簡単に管理できます。

StreamSets の一般的なデモについては、次の YouTube ビデオ (10 分) をご覧ください。

Azure Databricks で StreamSets を使用する手順を次に示します。

手順 1: Databricks 個人用アクセス トークンを生成する

StreamSets は、Azure Databricks 個人用アクセス トークンを使用して、Azure Databricks との認証を行います。

注意

セキュリティのベスト プラクティスとして、自動化されたツール、システム、スクリプト、アプリを使用して認証する場合、Databricks では、ワークスペース ユーザーではなく サービス プリンシパル に属する個人用アクセス トークンを使用することをお勧めします。 サービス プリンシパルのトークンを作成するには、サービス プリンシパル のトークンの管理に関するページを参照してください。

手順 2: 統合のニーズをサポートするようにクラスターを設定する

StreamSets は Azure Data Lake Storage パスにデータを書き込み、Azure Databricks 統合クラスターは、その場所からデータを読み取ります。 そのため、統合クラスターには、Azure Data Lake Storage パスへのセキュリティで保護されたアクセスが必要です。

Azure Data Lake Storage パスへのアクセスをセキュリティで保護する

Azure Data Lake Storage (ADLS) のデータへのアクセスをセキュリティで保護するには、Azure ストレージ アカウント アクセス キー (推奨) または Microsoft Entra ID サービス プリンシパルを使用できます。

Azure ストレージ アカウント アクセス キーを使用する

Spark 構成の一部として、統合クラスターでストレージ アカウントのアクセス キーを構成できます。 ストレージ アカウントが、ステージング データに使用される ADLS コンテナーとファイル システム、Delta Lake テーブルを書き込む ADLS コンテナーとファイル システムにアクセスできることを確認します。 キーを使用するように統合クラスターを構成するには、「 Azure Data Lake Storage と Blob Storage への接続」の手順に従います。

Microsoft Entra ID サービス プリンシパルを使用する

Spark 構成の一部として、Azure Databricks 統合クラスターでサービス プリンシパルを構成できます。 サービス プリンシパルが、ステージング データに使用される ADLS コンテナーと、Delta テーブルを書き込む ADLS コンテナーにアクセスできることを確認します。 サービス プリンシパルを使用するように統合クラスターを構成するには、「サービス プリンシパルを使用して ADLS にアクセスする」の手順に従います。

クラスター構成の指定

  1. クラスター モードStandard に設定します。

  2. Databricks ランタイム バージョンをランタイムに設定します: 6.3 以降。

  3. Spark 構成に次のプロパティを追加して、最適化された書き込みと自動圧縮を有効にします。

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. 統合とスケーリングのニーズに応じて、クラスターを構成します。

クラスター構成の詳細については、「 コンピューティング構成リファレンス」を参照してください

JDBC URL と HTTP パス を取得する手順については、Azure Databricks コンピューティング リソースの接続の詳細 を取得するを参照してください。

手順 3: クラスターに接続するための JDBC と ODBC の接続の詳細を取得する

Azure Databricks クラスターを StreamSets に接続するには、次の JDBC/ODBC 接続プロパティが必要です。

  • JDBC URL
  • HTTP パス

手順 4: Azure Databricks の StreamSets を取得する

まだ StreamSets アカウントを持っていない場合は、Databricks の StreamSets にサインアップします。 あなたは無料で開始し、準備ができたらアップグレードすることができます。 StreamSets DataOps Platform の価格を参照してください。

手順 5: StreamSets を使用して Delta Lake にデータを読み込む方法を学習する

サンプル パイプラインから始めるか、 Databricks Delta Lake へのデータの読み込みを 参照して、Delta Lake にデータを取り込むパイプラインを構築する方法について説明します。

その他の技術情報

支える