データ品質スキャンは、適用された データ品質ルール に基づいてデータ資産を確認し、スコアを生成します。 データ スチュワードは、そのスコアを使用してデータの正常性を評価し、データの品質を低下させる可能性がある問題に対処できます。
前提条件
- データ品質評価スキャンを実行してスケジュールするには、ユーザーに データ品質スチュワード ロールが必要です。
- 現時点では、データ品質スキャンを実行できるように、パブリック アクセスまたはマネージド仮想ネットワーク アクセスを許可するように Microsoft Purview アカウントを設定できます。
データ品質のライフ サイクル
データ品質スキャンは、データ資産のデータ品質ライフサイクルの 7 番目のステップです。 前の手順は次のとおりです。
- すべてのデータ品質機能を使用できるように、Microsoft Purview 統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
- Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
- データ製品にデータ資産を追加する
- データ品質評価のためにソースを準備するために、データ ソース接続を設定します。
-
データ ソース内の資産のデータ プロファイルを構成して実行します。
- プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
- プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
サポートされているマルチクラウド データ ソース
サポートされているデータ ソース ドキュメントを参照して、サポートされているデータ ソースの一覧を表示します。これには、データ プロファイルのファイル形式や、仮想ネットワークのサポートありとなし、データ品質スキャンが含まれます。
重要
Parquet ファイルのデータ品質は、次をサポートするように設計されています。
- Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。 {SparkPartitions} に至る直接の FQN である必要があります。 - 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセット スキーマを示します。 制約: Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするようには設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。
サポートされている認証方法
現時点では、Microsoft Purview では、 マネージド ID を 認証オプションとして使用する場合にのみ、データ品質スキャンを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。 サポートされているリージョンの詳細については、「 データ品質の概要」を参照してください。
重要
- データ ソースのスキーマを更新する場合は、データ品質スキャンを実行する前にデータ マップ スキャンを再実行する必要があります。 スキーマインポート機能は、データ品質の概要ページからも使用できます。
- マネージド Virtual Networkまたはプライベート エンドポイントで実行されているデータ ソースでは、スキーマのインポートはサポートされていません。
- 仮想ネットワークは Google BigQuery ではサポートされていません。
データ品質スキャンを実行する
データ品質をスキャンする資産へのデータ ソース接続を構成します (まだ行っていない場合)。
統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
一覧から ガバナンス ドメイン を選択します。
データ製品を選択して、その製品にリンクされているデータ資産のデータ品質を評価します。
データ資産の名前を選択すると、[データ品質の 概要 ] ページに移動します。
[ルール] を選択して、既存のデータ品質ルールを参照し、新しいルールを追加 します。 [スキーマ] を選択して、データ資産の スキーマを参照します。 追加したルールのオン/オフを切り替えます。
[概要] ページで [品質スキャンの実行] を選択して 、品質スキャンを実行 します。
スキャンの実行中は、 ガバナンス ドメインのデータ品質監視ページから進行状況を追跡できます。
データ品質スキャンをスケジュールする
[品質スキャンの実行] を選択することで、データ 品質スキャンをアドホックに実行できますが、運用シナリオではソース データが常に更新される可能性があります。 問題を検出するには、データ品質を定期的に監視する必要があります。 スキャン プロセスを自動化すると、品質スキャンの定期的な更新を管理できます。
統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
一覧から ガバナンス ドメイン を選択します。
[ 管理] を選択し、[ スケジュールされたスキャン] を選択します。
[ スケジュールされたスキャンの作成 ] ページでフォームに入力します。 スケジュールを設定するソースの 名前 と 説明 を追加します。
[続行] を選択します。
[ スコープ ] タブで、個々のデータ製品と資産、またはガバナンス ドメイン全体のすべてのデータ製品とデータ資産を選択します。
[続行] を選択します。
設定に基づいてスケジュールを設定し、[続行] を選択 します。
[ レビュー ] タブで、[ 保存 ] (または [保存して実行して すぐにテスト] ) を選択して、データ品質評価スキャンのスケジュール設定を完了します。
スケジュールされたスキャンは、[スキャン] タブの [データ品質ジョブの監視] ページで監視できます。
注:
すべてのデータ製品に 30 を超える資産を 1 つのスケジュールで追加することはできません。 バッチあたり 30 個の資産に対して複数のスケジュールを作成します。 複数のスケジュールを同じ時間枠で実行するように構成できます。
以前のデータ品質スキャンと履歴を削除する
データ製品からデータ資産を削除する場合、そのデータ資産にデータ品質スコアがある場合は、まずデータ品質スコアを削除してから、データ製品からデータ資産を削除する必要があります。
データ品質履歴データを削除すると、プロファイル履歴、データ品質スキャン履歴、データ品質ルールが削除されますが、データ品質アクションは削除されません。
データ資産の以前のデータ品質スキャンを削除するには、次の手順に従います。
- 統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
- 一覧から ガバナンス ドメイン を選択します。
- 一覧から データ製品 を選択します。
- 一覧から データ資産 を選択して、[データ品質の概要] ページに移動します。
- [データ品質の概要] ページの右上にある省略記号 (...) を選択します。
- [ データ品質データの削除] を選択して、データ品質実行の履歴を削除します。
注:
- テスト実行、エラーが発生したデータ品質の実行、またはデータ製品からデータ資産を削除する場合は、[データ品質データの 削除] を使用します。
- システムは、データ品質プロファイルとデータ品質評価履歴の最大 50 個のスナップショットを格納します。 特定のスナップショットを削除する場合は、目的の履歴の実行を選択し、削除アイコンを選択します。
スキーマのインポート
スキーマ内のデータ型が定義されていない、誤って定義されている、またはソースで変更された場合、データ品質ジョブが失敗する可能性があります。 失敗した場合は、スキーマインポート機能を使用してスキーマを再インポートします。 スキーマのインポートは、パブリック ネットワークとプライベート エンドポイントの両方のデータ ソースでサポートされています。 サポートされているデータ ソースは、 データ品質でサポートされているデータ ソースとファイル形式に記載されています。 データ ソースからスキーマをインポートするには、次の手順に従います。
- [Health Management] から [データ品質] を選択します。
- ビジネス ドメインを選択し、データ製品を選択してから、そのデータ製品からデータ資産を選択します。 データ品質の概要ページが表示されます。
- [ スキーマ] を選択し、[ スキーマ管理 ] トグルを選択します。
- [ スキーマのインポート] を選択して、スキーマをインポートします。
関連コンテンツ
- Fabric データ資産のデータ品質
- Fabric ミラー化されたデータ ソースのデータ品質
- Fabric ショートカット データ ソースのデータ品質
- Azure Synapseサーバーレスおよびデータ ウェアハウスのデータ品質
- Azure Databricks Unity カタログのデータ品質
- Snowflake データ ソースのデータ品質
- Google BigQuery のデータ品質
次の手順
- データ品質スキャンを監視する
- スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
- データ品質スキャン結果のアラートを構成する