Microsoft Purview 統合カタログのデータ品質により、ガバナンス ドメインとデータ所有者は、データ エコシステムの品質を評価して監視できるようになり、目標とする改善アクションが容易になります。 今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。 信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。
データ品質の低下や互換性のないデータ構造は、ビジネス プロセスと意思決定機能を妨げる可能性があります。 統合カタログのデータ品質は、すぐに使用できる (OOB) ルールや AI によって生成されるルールなど、コードなしルールまたはローコード ルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。 これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンス ドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。
Microsoft Purview のデータ品質には、AI を利用したデータ プロファイリング機能も組み込まれており、プロファイリングの列を推奨しながら、人間の介入によってこれらの推奨事項を絞り込むことができます。 この反復プロセスは、データ プロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。
データ品質を適用することで、組織はデータ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。
データ品質のライフ サイクル
- すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
- Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
- データ製品にデータ資産を追加する
- データ品質評価のためにソースを準備するために、データ ソース接続を設定します。
-
データ ソース内の資産のデータ プロファイルを構成して実行します。
- プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
- プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
- データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
- スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
- データ資産のライフ サイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
- データ品質を継続的に監視する
- データ品質アクションを確認 して、問題を特定して解決します。
- 品質の問題を警告するようにデータ品質通知を設定 します。
サポートされているデータ品質リージョン
現在、データ品質は 次のリージョンでサポートされています。
サポートされているマルチクラウド データ ソース
サポートされているデータ ソースの一覧を表示します。
重要
Parquet ファイルのデータ品質は、次をサポートするように設計されています。
- Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリとサブディレクトリの構造に {n} パターンが含まれていないことを確認します。 代わりに、{SparkPartitions} につながる直接 FQN を使用します。 - 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセット スキーマを示します。 制約: データ品質は、Parquet ファイルを含むディレクトリの任意の階層をサポートするようには設計されていません。 (1) または (2) 構築された構造体にデータを提示することをお勧めします。
現時点では、Microsoft Purview では、認証オプションとして マネージド ID を 使用する場合にのみ、データ品質スキャンを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。
データ品質機能
-
データ ソース接続の構成
- Microsoft Purview データ品質 SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
- Microsoft Purview では、認証オプションとしてマネージド ID が使用されます。
-
データ プロファイリング
- AI 対応のデータ プロファイル エクスペリエンス。
- 業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複など)。
- 列レベルのプロファイリング メジャーをドリルダウンします。
-
データ品質ルール
- 6 つの業界標準のデータ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための既定のルール。
- カスタム ルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
- AI 統合エクスペリエンスを使用して自動生成されたルール。
-
データ品質スキャン
- データ品質スキャンの列にルールを選択して割り当てます。
- エンティティまたはテーブル レベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
- データ品質スキャン ジョブを一定期間 (時間単位、日単位、週単位、月単位など) にスケジュールします。
-
データ品質ジョブの監視
- データ品質ジョブの状態 (アクティブ、完了、失敗など) の監視を有効にします。
- データ品質スキャン履歴の閲覧を有効にします。
-
データ品質スコアリング
- ルール レベルのデータ品質スコア (列に適用されたルールの品質スコア)。
- データ資産、データ製品、ガバナンス ドメインのデータ品質スコア (1 つのガバナンス ドメインには多くのデータ製品を含めることができます。1 つのデータ製品には多くのデータ資産を含め、1 つのデータ資産には多くのデータ列を含めることができます)。
-
データ品質アラート
- データ品質のしきい値が予想を超えた場合に、データ所有者とデータ スチュワードに通知するアラートを構成します。
- メール エイリアスまたは配布グループを構成して、データ品質の問題に関する通知を送信します。
-
データ品質アクション
- データ品質の異常状態に対処するアクションを含む、データ品質の異常状態に対処するアクションを備えたアクションセンターです。これには、異常状態ごとに修正する特定のデータに対するデータ品質スチュワードの診断クエリがゼロに含まれます。
-
データ品質マネージド仮想ネットワーク
- プライベート エンドポイントと Microsoft Azure データ ソースに接続するデータ品質によって管理される仮想ネットワーク。
データの保存場所と暗号化
Microsoft マネージド ストレージ アカウントには、データ品質のメタデータとプロファイルの概要が格納されます。 データ ソースと同じリージョンに格納されるため、データ所在地はそのまま残ります。 すべてのデータが暗号化されます。 Purview リソース プロバイダーのリージョン ユーザー データ ストアは、メタデータに使用されます。 すべての暗号化を処理し、すべての Purview サービスで一般的です。 カスタマー マネージド暗号化キー (CMK) を使用してデータ暗号化をより詳細に制御する場合は、別のプロセスを使用します。 Microsoft Purview カスタマー キーの詳細については、こちらをご覧ください。
データ品質コンピューティングの価格
データ品質の使用状況は、データ ガバナンス処理ユニット (DGPU) 従量課金制メーターに基づいて課金されます。 データ品質の価格の計算方法の詳細を確認します。
制限
- 仮想ネットワークは、Google ビッグ クエリではまだサポートされていません。
関連コンテンツ
- Fabric データ資産のデータ品質
- Fabric ミラー化データ ソースのデータ品質
- Fabric ショートカット データ ソースのデータ品質
- Azure Synapseサーバーレスおよびデータ ウェアハウスのデータ品質
- Azure Databricks Unity カタログのデータ品質
- Snowflake データ ソースのデータ品質
- Google BigQuery のデータ品質
- Iceberg データのデータ品質ネイティブ サポート
次の手順
- すべてのデータ品質機能を使用できるように、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
- データ品質 評価のためにソースを準備するためのデータ ソース接続を設定します。
- データ ソース内の資産のデータ プロファイルを構成して実行 します。