クラウドオブジェクトストレージからデータを取り込む

この記事では、クラウドオブジェクトストレージからの増分インジェストを構成する方法の一覧を示します。

データの追加 UI

追加のデータ UI を使用して、クラウドオブジェクトストレージのデータからマネージドテーブルを作成する方法については、「Unity Catalog の外部の場所を使用したデータの読み取り」を参照してください。

ノートブックまたは SQL エディター

このセクションでは、ノートブックまたは Databricks SQL エディターを使用してクラウドオブジェクトストレージからの増分インジェストを構成するためのオプションについて説明します。

自動ローダー

自動ローダーでは、追加の設定を行わなくても、クラウドストレージに到着した新しいデータファイルが段階的かつ効率的に処理されます。自動ローダーは、cloudFiles と呼ばれる構造化ストリーミングソースを提供します。クラウドファイルストレージ上に入力ディレクトリパスを指定すると、cloudFiles ソースでは、新しいファイルが到着したときにそれらが自動的に処理されます。また、そのディレクトリ内の既存のファイルも処理できます。

COPY INTO

COPY INTOを使用すると、SQL ユーザーは、クラウドオブジェクトストレージから Delta テーブルにデータをべき等かつ増分的に取り込むことができます。 Databricks SQL、ノートブック、および Lakeflow ジョブで COPY INTO を使用できます。

COPY INTO を使用するタイミングと自動ローダーを使用するタイミング

自動ローダーか COPY INTO かを選択するときに考慮すべきいくつかの点を次に示します。

時間をかけて数千ファイルを取り込む場合は、COPY INTOを使用できます。時間の経過とともに数百万以上のファイルが予想される場合は、Auto Loaderを使用してください。自動ローダーでは、COPY INTO と比較してファイルを検出する操作の合計が少なくて済み、処理を複数のバッチに分割できます。つまり、自動ローダーの方がコストが低く、大規模で効率が高くなります。
データスキーマが頻繁に展開する予定の場合は、自動ローダーにより、スキーマの推論と展開に関してより適切なプリミティブなデータ型が得られます。詳細については、「自動ローダーでのスキーマの推論と展開の構成」を参照してください。
再アップロードされたファイルのサブセットの読み込みは、COPY INTO のほうが少し簡単に管理できます。自動ローダーを使用すると、選択したファイルのサブセットを再処理することが困難になります。ただし、自動ローダーストリームを同時に実行しながら、COPY INTO を使用して、ファイルのサブセットを再度読み込むことは可能です。

ファイル取り込みの拡張性と堅牢度を上げるため、自動ローダーでは、SQL ユーザーはストリーミングテーブルを活用できます。 Databricks SQL でのストリーミングテーブルの使用を参照してください。

自動ローダーと COPY INTO の概要とデモについては、次の YouTube 動画 (2 分) をご覧ください。

Lakeflow Spark 宣言パイプラインと自動ローダーを使用して ETL を自動化する

自動ローダーと Lakeflow Spark 宣言パイプラインを使用すると、スケーラブルな増分インジェストインフラストラクチャのデプロイを簡略化できます。 Lakeflow Spark 宣言型パイプラインでは、ノートブックで見つかった標準的な対話型実行は使用されず、運用環境に対応したインフラストラクチャのデプロイが強調されます。

ストリーミングテーブル

サードパーティのインジェストツール

Databricks は、クラウドオブジェクトストレージを含むさまざまなソースから取り込むためのテクノロジパートナー統合を検証します。これらの統合により、さまざまなソースから Azure Databricks へ、少量のコードでスケーラブルなデータインジェストが可能になります。「テクノロジパートナー」を参照してください。一部のテクノロジパートナーは「Databricks Partner Connect とは」で紹介されており、サードパーティ製ツールをレイクハウスデータに簡単に接続できる UI が提供されます。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-10-08