次の方法で共有


データ品質スキャンを構成して実行する

データ品質スキャンは、適用された データ品質ルール に基づいてデータ資産を確認し、スコアを生成します。 データ スチュワードは、そのスコアを使用してデータの正常性を評価し、データの品質を低下させる可能性がある問題に対処できます。

前提条件

  • データ品質評価スキャンを実行してスケジュールするには、ユーザーに データ品質スチュワード ロールが必要です。
  • 現時点では、データ品質スキャンを実行できるように、パブリック アクセスまたはマネージド仮想ネットワーク アクセスを許可するように Microsoft Purview アカウントを設定できます。

データ品質のライフ サイクル

データ品質スキャンは、データ資産のデータ品質ライフサイクル7 番目のステップです。 前の手順は次のとおりです。

  1. すべてのデータ品質機能を使用できるように、Microsoft Purview 統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます
  2. Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
  3. データ製品にデータ資産を追加する
  4. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  5. データ ソース内の資産のデータ プロファイルを構成して実行します。
    1. プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
  6. プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。

サポートされているマルチクラウド データ ソース

サポートされているデータ ソース ドキュメントを参照して、サポートされているデータ ソースの一覧を表示します。これには、データ プロファイルのファイル形式や、仮想ネットワークのサポートありとなし、データ品質スキャンが含まれます。

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

  1. Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。 {SparkPartitions} に至る直接の FQN である必要があります。
  2. 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセット スキーマを示します。 制約: Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするようには設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。

サポートされている認証方法

現時点では、Microsoft Purview では、 マネージド ID を 認証オプションとして使用する場合にのみ、データ品質スキャンを実行できます。 データ品質サービスは 、Apache Spark 3.4Delta Lake 2.4 で実行されます。 サポートされているリージョンの詳細については、「 データ品質の概要」を参照してください。

重要

  • データ ソースのスキーマを更新する場合は、データ品質スキャンを実行する前にデータ マップ スキャンを再実行する必要があります。 スキーマインポート機能は、データ品質の概要ページからも使用できます。
  • マネージド Virtual Networkまたはプライベート エンドポイントで実行されているデータ ソースでは、スキーマのインポートはサポートされていません。
  • 仮想ネットワークは Google BigQuery ではサポートされていません。

データ品質スキャンを実行する

  1. データ品質をスキャンする資産へのデータ ソース接続を構成します (まだ行っていない場合)。

  2. 統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。

  3. 一覧から ガバナンス ドメイン を選択します。

  4. データ製品を選択して、その製品にリンクされているデータ資産のデータ品質を評価します。

  5. データ資産の名前を選択すると、[データ品質の 概要 ] ページに移動します。

  6. [ルール] を選択して、既存のデータ品質ルールを参照し、新しいルールを追加 します。 [スキーマ] を選択して、データ資産の スキーマを参照します。 追加したルールのオン/オフを切り替えます。

  7. [概要] ページで [品質スキャンの実行] を選択して 、品質スキャンを実行 します。

  8. スキャンの実行中は、 ガバナンス ドメインのデータ品質監視ページから進行状況を追跡できます

データ品質スキャンをスケジュールする

[品質スキャンの実行] を選択することで、データ 品質スキャンをアドホックに実行できますが、運用シナリオではソース データが常に更新される可能性があります。 問題を検出するには、データ品質を定期的に監視する必要があります。 スキャン プロセスを自動化すると、品質スキャンの定期的な更新を管理できます。

  1. 統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。

  2. 一覧から ガバナンス ドメイン を選択します。

  3. [ 管理] を選択し、[ スケジュールされたスキャン] を選択します。

  4. [ スケジュールされたスキャンの作成 ] ページでフォームに入力します。 スケジュールを設定するソースの 名前説明 を追加します。

  5. [続行] を選択します。

  6. [ スコープ ] タブで、個々のデータ製品と資産、またはガバナンス ドメイン全体のすべてのデータ製品とデータ資産を選択します。

  7. [続行] を選択します。

  8. 設定に基づいてスケジュールを設定し、[続行] を選択 します

  9. [ レビュー ] タブで、[ 保存 ] (または [保存して実行して すぐにテスト] ) を選択して、データ品質評価スキャンのスケジュール設定を完了します。

スケジュールされたスキャンは、[スキャン] タブ[データ品質ジョブの監視] ページで監視できます。

注:

すべてのデータ製品に 30 を超える資産を 1 つのスケジュールで追加することはできません。 バッチあたり 30 個の資産に対して複数のスケジュールを作成します。 複数のスケジュールを同じ時間枠で実行するように構成できます。

以前のデータ品質スキャンと履歴を削除する

データ製品からデータ資産を削除する場合、そのデータ資産にデータ品質スコアがある場合は、まずデータ品質スコアを削除してから、データ製品からデータ資産を削除する必要があります。

データ品質履歴データを削除すると、プロファイル履歴、データ品質スキャン履歴、データ品質ルールが削除されますが、データ品質アクションは削除されません。

データ資産の以前のデータ品質スキャンを削除するには、次の手順に従います。

  1. 統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
  2. 一覧から ガバナンス ドメイン を選択します。
  3. 一覧から データ製品 を選択します。
  4. 一覧から データ資産 を選択して、[データ品質の概要] ページに移動します。
  5. [データ品質の概要] ページの右上にある省略記号 (...) を選択します。
  6. [ データ品質データの削除] を選択して、データ品質実行の履歴を削除します。

注:

  • テスト実行、エラーが発生したデータ品質の実行、またはデータ製品からデータ資産を削除する場合は、[データ品質データの 削除] を使用します。
  • システムは、データ品質プロファイルとデータ品質評価履歴の最大 50 個のスナップショットを格納します。 特定のスナップショットを削除する場合は、目的の履歴の実行を選択し、削除アイコンを選択します。

スキーマのインポート

スキーマ内のデータ型が定義されていない、誤って定義されている、またはソースで変更された場合、データ品質ジョブが失敗する可能性があります。 失敗した場合は、スキーマインポート機能を使用してスキーマを再インポートします。 スキーマのインポートは、パブリック ネットワークとプライベート エンドポイントの両方のデータ ソースでサポートされています。 サポートされているデータ ソースは、 データ品質でサポートされているデータ ソースとファイル形式に記載されています。 データ ソースからスキーマをインポートするには、次の手順に従います。

  • [Health Management] から [データ品質] を選択します
  • ビジネス ドメインを選択し、データ製品を選択してから、そのデータ製品からデータ資産を選択します。 データ品質の概要ページが表示されます。
  • [ スキーマ] を選択し、[ スキーマ管理 ] トグルを選択します。
  • [ スキーマのインポート] を選択して、スキーマをインポートします。

次の手順