次の方法で共有


レイクハウスのチュートリアル: レイクハウスにデータを取り込む

このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。

前提条件

データを取り込む

このセクションでは、Data Factory パイプラインの [データのコピー] アクティビティ を使用して、Azure ストレージ アカウントから以前に作成したレイクハウスの [ファイル] セクションにサンプル データを取り込みます。

  1. 左側のナビゲーション ウィンドウで [ワークスペース] を選択し、[ワークスペース] メニューから新しいワークスペースを選択します。 ワークスペースのアイテム ビューが表示されます。

  2. ワークスペース リボンの [新しい項目 ] オプションで、[ パイプライン] を選択します。

  3. [新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。

  4. 新しく作成したパイプラインから、[ パイプライン アクティビティ ] を選択してパイプラインにアクティビティを追加し、[ データのコピー] を選択します。 このアクションにより、コピー データ アクティビティがパイプライン キャンバスに追加されます。

    [パイプライン アクティビティ] と [データのコピー] を選択する場所を示すスクリーンショット。

  5. キャンバスから新しく追加されたデータのコピー アクティビティを選択します。 アクティビティプロパティは、キャンバスの下のペインに表示されます(上端をドラッグしてペインを上に展開する必要がある場合があります)。 プロパティ ウィンドウの [全般] タブで、[名前] フィールドに「Data Copy to Lakehouse」と入力します。 残りのプロパティは既定値のままにします。

    [全般] タブでコピー アクティビティ名を追加する場所を示すスクリーンショット。

  6. 選択したコピー データ アクティビティの [ ソース ] タブで、[ 接続 ] フィールドを開き、[ すべて参照] を選択します。 [データ ソースの選択] ウィンドウがポップアップ表示され、 Azure BLOB を検索して選択します。 このチュートリアルでは、すべてのサンプル データを Azure BLOB ストレージのパブリック コンテナーで使用できます。 このコンテナーに接続して、そこからデータをコピーします。

  7. [接続設定] ウィンドウに次の詳細を入力し、[接続] を選択してデータ ソースへの接続を作成します。

    プロパティ 価値
    アカウント名または URL https://fabrictutorialdata.blob.core.windows.net/sampledata/
    接続 新しい接続を作成する
    接続名 wwisampledata
    認証の種類 匿名

    BLOB ストレージ接続を選択する場所を示すスクリーンショット。

  8. 新しい接続が作成されたら、データコピー アクティビティの [ ソース ] タブに戻り、新しく作成された接続が既定で選択されます。 移動先の設定に移動する前に、次のプロパティを指定します。

    プロパティ 価値
    接続 wwisampledata
    ファイル パスの種類 ファイルパス
    ファイルパス コンテナー名 (最初のテキスト ボックス): sampledata
    ディレクトリ名 (2 番目のテキスト ボックス): WideWorldImportersDW/parquet
    再帰 確認済み
    ファイル形式 Binary

    Blob Storage の接続設定を示すスクリーンショット。

  9. 選択したコピー データ アクティビティの [ 宛先 ] タブで、次のプロパティを指定します。

    プロパティ 価値
    接続 wwilakehouse (別の名前を付けた場合は、レイクハウスを選択してください)
    ルート フォルダー Files
    ファイルパス ディレクトリ名 (最初のテキスト ボックス): wwi-raw-data
    ファイル形式 Binary

    特定の詳細を入力する場所を示す宛先タブのスクリーンショット。

  10. データのコピー アクティビティを構成しました。 上部のリボン (ホームの下) の [保存] アイコンを選択して変更を保存し、[ 実行 ] を選択してパイプラインとそのアクティビティを実行します。 また、ビジネス要件を満たすために、定義された間隔でデータを更新するようにパイプラインをスケジュールすることもできます。 このチュートリアルでは、[実行] を選択してパイプラインを 1 回だけ 実行します。

  11. このアクションにより、基になるデータ ソースから指定した lakehouse へのデータ コピーがトリガーされ、完了するまでに最大 1 分かかる場合があります。 パイプラインとそのアクティビティの実行は、[ 出力 ] タブで監視できます。アクティビティの状態が Queued>In progress>Succeeded から変わります

    [保存してパイプラインを実行する] を選択する場所を示すスクリーンショット。

  12. コピー アクティビティが成功したら、レイクハウス (wwilakehouse) を開いてデータを表示します。 [ ファイル ] セクションを更新して、取り込まれたデータを確認します。 ファイル セクションに新しいフォルダー wwi-raw-data が表示され、Azure BLOB テーブルのデータがそこにコピーされます。

    コピー先のレイクハウスにコピーされた BLOB データを示すスクリーンショット

次のステップ