このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。
前提条件
- Lakehouse がない場合は、Lakehouse を作成する必要があります。
データを取り込む
このセクションでは、Data Factory パイプラインの [データのコピー] アクティビティ を使用して、Azure ストレージ アカウントから以前に作成したレイクハウスの [ファイル] セクションにサンプル データを取り込みます。
左側のナビゲーション ウィンドウで [ワークスペース] を選択し、[ワークスペース] メニューから新しいワークスペースを選択します。 ワークスペースのアイテム ビューが表示されます。
ワークスペース リボンの [新しい項目 ] オプションで、[ パイプライン] を選択します。
[新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。
新しく作成したパイプラインから、[ パイプライン アクティビティ ] を選択してパイプラインにアクティビティを追加し、[ データのコピー] を選択します。 このアクションにより、コピー データ アクティビティがパイプライン キャンバスに追加されます。
キャンバスから新しく追加されたデータのコピー アクティビティを選択します。 アクティビティプロパティは、キャンバスの下のペインに表示されます(上端をドラッグしてペインを上に展開する必要がある場合があります)。 プロパティ ウィンドウの [全般] タブで、[名前] フィールドに「Data Copy to Lakehouse」と入力します。 残りのプロパティは既定値のままにします。
選択したコピー データ アクティビティの [ ソース ] タブで、[ 接続 ] フィールドを開き、[ すべて参照] を選択します。 [データ ソースの選択] ウィンドウがポップアップ表示され、 Azure BLOB を検索して選択します。 このチュートリアルでは、すべてのサンプル データを Azure BLOB ストレージのパブリック コンテナーで使用できます。 このコンテナーに接続して、そこからデータをコピーします。
[接続設定] ウィンドウに次の詳細を入力し、[接続] を選択してデータ ソースへの接続を作成します。
プロパティ 価値 アカウント名または URL https://fabrictutorialdata.blob.core.windows.net/sampledata/接続 新しい接続を作成する 接続名 wwisampledata 認証の種類 匿名 新しい接続が作成されたら、データコピー アクティビティの [ ソース ] タブに戻り、新しく作成された接続が既定で選択されます。 移動先の設定に移動する前に、次のプロパティを指定します。
プロパティ 価値 接続 wwisampledata ファイル パスの種類 ファイルパス ファイルパス コンテナー名 (最初のテキスト ボックス): sampledata
ディレクトリ名 (2 番目のテキスト ボックス): WideWorldImportersDW/parquet再帰 確認済み ファイル形式 Binary 選択したコピー データ アクティビティの [ 宛先 ] タブで、次のプロパティを指定します。
プロパティ 価値 接続 wwilakehouse (別の名前を付けた場合は、レイクハウスを選択してください) ルート フォルダー Files ファイルパス ディレクトリ名 (最初のテキスト ボックス): wwi-raw-data ファイル形式 Binary データのコピー アクティビティを構成しました。 上部のリボン (ホームの下) の [保存] アイコンを選択して変更を保存し、[ 実行 ] を選択してパイプラインとそのアクティビティを実行します。 また、ビジネス要件を満たすために、定義された間隔でデータを更新するようにパイプラインをスケジュールすることもできます。 このチュートリアルでは、[実行] を選択してパイプラインを 1 回だけ 実行します。
このアクションにより、基になるデータ ソースから指定した lakehouse へのデータ コピーがトリガーされ、完了するまでに最大 1 分かかる場合があります。 パイプラインとそのアクティビティの実行は、[ 出力 ] タブで監視できます。アクティビティの状態が Queued>In progress>Succeeded から変わります。
コピー アクティビティが成功したら、レイクハウス (wwilakehouse) を開いてデータを表示します。 [ ファイル ] セクションを更新して、取り込まれたデータを確認します。 ファイル セクションに新しいフォルダー wwi-raw-data が表示され、Azure BLOB テーブルのデータがそこにコピーされます。