次の方法で共有


Google BigQuery のデータ品質を設定する (プレビュー)

サポートされている機能

Google BigQuery ソースをスキャンする場合、Microsoft Purview では次の処理がサポートされます。

  • 以下を含む技術的なメタデータの抽出:
    • プロジェクトとデータセット。
    • 列を含むテーブル。
    • 列を含むビュー。
  • テーブルとビュー間の資産リレーションシップに対する静的系列のフェッチ。

スキャンを設定するときに、Google BigQuery プロジェクト全体をスキャンすることを選択できます。 また、指定された名前または名前パターンに一致するデータセットのサブセットにスキャンのスコープを設定することもできます。

既知の制限

  • 現在、Microsoft Purview では、米国の複数地域の場所での Google BigQuery データセットのスキャンのみがサポートされています。 指定したデータセットが "us-east1" や "EU" などの別の場所にある場合、スキャンは完了しますが、Microsoft Purview にはアセットは表示されません。

  • データ ソースからオブジェクトを削除しても、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。

Microsoft Purview で Google BigQuery データをカタログ化するようにデータ マップ スキャンを構成する

Google BigQuery プロジェクトを登録する

  • Microsoft Purview ポータルで、[ データ マップ] を選択し、[ 登録] を選択します。
  • [ ソースの登録] で [ Google BigQuery] を選択し、[続行] を選択 します
  • カタログに表示されるデータ ソースの 名前 を入力します。
  • ProjectID を入力します。 この値は、完全修飾プロジェクト ID である必要があります。 たとえば、「 mydomain.com: myProject 」のように入力します。
  • 一覧からコレクションを選択します。
  • [登録] を選択します。

Google BigQuery プロジェクトのデータ マップ スキャンを設定する

  • セルフホステッド統合ランタイムが設定されていることを確認します。 設定されていない場合は、「 Google BigQuery 接続の前提条件」に記載されている手順を使用します。

  • [ ソース] に移動します。

  • 登録済みの BigQuery プロジェクトを選択します。

  • [ 新しいスキャン] を選択します。

  • 次の詳細を入力します。

    • [名前]: スキャンの名前。
    • 統合ランタイム経由で接続する: 構成済みのセルフホステッド統合ランタイムを選択します。
    • 資格 情報 BigQuery 資格情報の構成中に、次のことを確認します。
      • 認証方法として [ 基本認証 ] を選択します。
      • [ ユーザー名 ] フィールドにサービス アカウントの電子メール ID を指定します。 たとえば、「 xyz\@developer.gserviceaccount.com 」のように入力します。
      • 秘密キーを生成するには、次の手順に従います。 JSON キー ファイル全体をコピーし、Key Vault シークレットの値として格納します。 Google のクラウド プラットフォームから新しい秘密キーを作成するには:
        • ナビゲーション メニューで [IAM (Identity Access Management)] を選択し、[管理 --> サービス アカウント] --> [プロジェクトの選択] を選択します。>
        • キーを作成するサービス アカウントのメール アドレスを選択します。
        • [キー] タブを選択します。
        • [キーの追加] ドロップダウン メニューを選択し、[新しいキーの作成] を選択します。
        • [JSON 形式] を選択します。
    • セルフホスト統合ランタイムが実行されているマシン内の JDBC (Java Database Connectivity) ドライバーの場所へのパスを指定します。 例: D:\Drivers\GoogleBigQuery
    • インポートする BigQuery データセットの一覧を指定します。 たとえば、 dataset1; dataset2。 リストが空の場合、使用可能なすべてのデータセットがインポートされます。
    • スキャン プロセスで使用する仮想マシンで使用できる最大メモリ (GB 単位): これは、スキャンする Google BigQuery プロジェクトのサイズによって異なります。
  • [ 接続のテスト] を選択します

  • [続行] を選択します。

  • スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。

  • スキャンを確認し、[ 保存して実行] を選択します。

スキャンすると、Google BigQuery プロジェクトのデータ資産が統合カタログ検索で使用できるようになります。 詳細については、 Microsoft Purview で Google BigQuery を接続して管理する方法に関するページを参照してください。

重要

スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。

データ品質スキャンのために Google BigQuery プロジェクトへの接続を設定する

スキャンされた資産は、カタログ化とガバナンスの準備ができました。 スキャンされた資産をガバナンス ドメインのデータ製品に関連付けて、データ品質スキャンを設定します。

  1. 統合カタログで、[正常性管理>データ品質] に移動します。 ガバナンス ドメインを選択して詳細ページを開き、[ 管理 ] を選択して接続を作成します。

  2. 接続を設定します。

    • 接続名と説明を追加します。
    • ソースの種類 Google BigQuery を選択します。
    • プロジェクト IDデータセット名テーブル名を追加します。
    • サービス アカウントの秘密キーに詳細を入力します。
      • Microsoft Azure サブスクリプションを追加します。
      • Microsoft Azure Key Vault接続を追加します。
      • シークレット名を入力します。
      • シークレット バージョンを入力します。
  3. 接続をテストして、データ ソース接続が正常に構成されていることを確認します。

    google BigQuery 接続を設定する方法を示すスクリーンショット。

    google BigQuery の接続を構成する方法を示すスクリーンショット。

重要

データ品質スチュワードは、データ品質接続を設定するために、Google BigQuery への 読み取り専用アクセス権 を必要とします。 仮想ネットワークとプライベート エンドポイントは、データ品質スキャン サービスではまだ Google BigQuery データ ソースではサポートされていません。

Google BigQuery でのデータのプロファイリングとデータ品質スキャン

接続を設定したら、データのプロファイリング、ルールの作成と適用、Google BigQuery でのデータのデータ品質スキャンの実行を行うことができます。 これらの記事で説明されているステップバイステップのガイドラインに従ってください。

リソース