Microsoft Purview データ ガバナンスは、Microsoft Purview 統合カタログとMicrosoft Purview データ マップを備え、包括的な可視性、データの信頼、責任あるイノベーションを提供し、組織が AI 時代のビジネス価値を高めるのに役立ちます。 正常性データの管理の例を使用して、この記事の手順に従って、統合カタログを設定し、その機能を使用して、organizationの健全なデータ ガバナンス プラクティスを構築する方法を理解するのに役立ちます。
手順 1: 統合カタログでガバナンス ドメインを設定する
ガバナンス ドメインは、データの説明責任を確立するための鍵であり、会社全体でそのデータのガバナンスをフェデレーションするのに役立ちます。 ガバナンス ドメインを作成するときは、適切な所有者から始めて、データ資産内のすべてのデータについて専門家を効果的に特定して共同作業できるようにします。 ガバナンス ドメインは、そのデータを管理するチームのデータ境界の種類に合わせてさまざまな種類にすることができます。 たとえば、機能ドメイン (財務、人事、販売)、データ ドメイン (製品、顧客、正常性) などです。
前提条件
アクセス許可を付与し、最初のガバナンス ドメインを構築する
Microsoft Purview ポータルを開きます。
ロール管理ロールを持つ管理者アカウント (Purview 管理者など) の資格情報を使用して、Microsoft Purview ポータルにサインインします。 [ 設定] > [ロールとスコープ] に移動して、表示および管理します。
[ ロール グループ] を選択します。
[ Microsoft Purview ソリューションの役割グループ ] ページで、[ データ ガバナンス ] 役割グループを選択します。
[役割グループのメンバーの編集] ページで、[ユーザーの選択] または [グループの選択] を選択します。
役割グループに追加するすべてのユーザーまたはグループの [チェック] ボックスを選択します。
[ 選択] を選択します。
統合カタログで、[カタログ管理] を選択し、[ガバナンス ドメイン] を選択します。
[ ガバナンス ドメイン ] ページでは、カタログの残りの部分を設定して、他のユーザーがデータの所有権をフェデレーションし、チームが知識を構築し、データのビジネス価値を確立できるようにします。
- まず、[ 新しいガバナンス ドメイン] を選択します。
- ガバナンス ドメインの名前を更新できます。 このチュートリアルでは、"(Tutorial) Personal Health" という名前を付け、"個人の健康データとは、医療セクター内で収集および使用される個人の身体または精神的健康に関連する情報を指します。 このデータには、医療記録、治療履歴、診断画像、検査結果など、さまざまな種類が含まれます。 プライバシーと機密性を確保するために、多くの場合、さまざまな法律や規制の下で保護されています。
- 型を "データ ドメイン" として選択します。
- 親は空白のままにします (これがカタログ内の最初のガバナンス ドメインの場合は、親がありません)。
- [作成] を選択します。
- ここで、自分でさらに 2 つのドメインを作成します。 これらのドメインは、organizationでのコラボレーションとガバナンスのためのフェデレーションの重要なポイントです。 統合カタログを実装するときに、ドメインの所有者になる可能性があるユーザーについて考えてください。
- 次の例に従うことができます。
- 企業機能ドメインは、会社全体が使用する高度に制御された資産と用語を表します。 - Sales は、ほとんどの組織が企業の子ドメインとして持つ機能ドメインです。
- まず、[ 新しいガバナンス ドメイン] を選択します。
作成したガバナンス ドメインを選択します。
ガバナンス ドメインの [ ロール ] タブを選択します。
既定では、ガバナンス ドメインを作成すると、ガバナンス ドメイン内のすべてのロールに追加されます。 ガバナンス ドメイン所有者として、データ スチュワード (ドメインのビジネス エキスパート) とデータ製品の所有者 (他のユーザーが使用するのに最適なデータ資産を把握しているユーザー) を追加します。
[ 詳細 ] タブに戻ります。
ドメイン レベル のポリシーを 適用するには、[ポリシーの管理] を選択します。 このポリシーは、ドメイン内のすべてのデータ製品に適用されます。 ポリシーの自動適用を有効にすることで、データの専門家もポリシーの専門家である必要はありません。
[ アクセス ポリシーの管理 ] タブで、[ データ コピーを許可 する] の横にあるチェック ボックスをオンにします。このポリシー オプションを選択すると、データ製品へのアクセスを要求するすべてのユーザーがデータのデータ コピー ポリシーを理解していることを証明するように要求する構成証明が自動的に適用されます。
[ 変更の保存] を 選択して、ポリシーがガバナンス ドメインによって設定されていることを確認します。
ドメイン内の他のすべての概念を発行するガバナンス ドメインで [ 発行 ] を選択します。
用語集の用語を作成する
ガバナンス ドメインに用語集の用語を追加すると、ビジネスでデータがどのように使用および解釈されるかを他のユーザーが理解するのに役立ちます。 用語集の用語では、分析情報で共通の用語が使用され、一般にガバナンス ドメイン全体の知識が確実に使用されます。
ガバナンス ドメインのページで、用語集の用語カードを見つけて、[すべて表示] を選択します。
[ 用語集の用語 ] ページで、[ 新しい用語] を選択します。
詳細を入力します。1.名前: "アウトブレイク"
- 説明: 集団の大部分に影響を与える可能性がある、または影響を与える可能性がある疾患。
- 残りの部分は今のところ空白のままにできますが、収集するフィールドがあります。会社の用語を定義する用語所有者、用語の名前とも呼ばれる共通の共有頭字語、最後に、用語に関するさらに詳細な情報を持つリソースへのリンクを提供できます。
[作成] を選択します。
[ ポリシーの管理] を選択します。 ドメイン レベルのポリシーと同様に、用語が使用されている場所であればどこでも適用される用語レベルのポリシーを作成できます。
[マネージャーの承認が 必要] の横にあるチェック ボックスをオンにします。 このポリシーは、データ製品へのアクセスが要求されたときに、Microsoft Entra ID でユーザーのマネージャーからのセカンダリ承認を適用します。
[ 発行] を選択して、作成されたアウトブレイク用語を選択します。 公開された用語は、統合カタログでフィルター処理でき、その用語を使用してデータ製品を記述する他のユーザーが、データ製品を参照しているときに統合カタログでその説明を確認できるようにします。
次に、さらに 2 つの用語を作成します。 今回は、作成した用語の親用語として [アウトブレイク] 用語を選択します。 いずれかの用語の関連タブでこれらの子用語間の関係を構築して、これらの用語がどのように連携するかのネットワークを構築して、トピック全体を説明してみてください。
- パンデミック: 複数の国/地域または大陸全体で多数の人々に影響を与える病気の世界的な発生。
- 流行: 全国または地域的に感染性が高く、人口の大部分に影響を与える疾患の発生。
前に作成した他のドメインで、他のいくつかの用語を作成してみてください。 何を追加するかがわからない場合は、[ 提案された用語を取得 する] を選択して、既に指定したドメインの説明と名前に基づいて、生成的 AI がいくつかの提案を行います。
OKR を追加する
データのビジネス価値を他のユーザーが理解できるように、Personal Health ドメインの OKR (目標と重要な結果) を追加します。 この手順では、データとデータが提供するビジネス価値との間に直接接続を構築します。
ガバナンス ドメイン ページから [OKR ] ボックスを選択します。
[ 新しい OKR] を選択します。
最初に目的の詳細を入力します。
- 目的:効果的な患者ワクチンの取り込みを可能にすることでパンデミックリスクを軽減する。
- 所有者: 自分の名前を入力します
- 対象日: '2024-12-31'
[作成] を選択します。
目標を測定可能にし、目標に向けた進捗状況を監視するために、目標に重要な結果を追加します。 [ キーの結果の追加] を選択します。
キーの結果の詳細を入力します。
- 主な結果:パンデミックの影響を受ける可能性が最も高い80%の年齢グループ(>65歳)が、2024年末までに完全ワクチン接種を受けられるようにします。
- 進行状況: 追跡中
- 進行状況: 70
- 目標金額: 80
- 最大金額: 100
[作成] を選択します。
[発行] を選択します。
重要なデータ要素を作成する
Personal Health で重要なデータ要素 (CDE) を作成して、データの最も重要な列の定義と理解が一貫していることを確認します。 CDE は、データの形成と格納方法に関するビジネス上の期待を常に満たします。
- [Personal Health ドメイン] が選択されている [ガバナンス ドメイン] ページで、[ 重要なデータ要素 ] ボックスを選択します。
- [ 新しい重要なデータ要素] を選択します。
- 基本的な CDE メタデータを入力します。
- 名前: 年齢グループ
- 説明: 必要な分析レポートが参照に従っていることを確認するために使用される人物の年齢の一般的なグループ化は、他のユーザーが個々の年齢に依存し、データの匿名性を向上させるために削除できる参照に従います。 年齢グループは、 <2年、2〜4年、5〜11年、12〜17年、18〜24年、25〜49年、50〜64年、65歳以上の8つのグループに分けられる。
- 所有者: 自分の名前を入力します
- 予期されるデータ型: テキスト
- [作成] を選択します。
CDE の真のパワーは、このデータが格納されている物理データ列に直接マップすることです。 この接続により、共通の理解が確保され、大規模なデータ品質ルールとポリシーの評価が可能になります。
先ほど作成した CDE から、[ 列の追加] を選択します。
Data Lake のゴールド コンテナーから Covid 19 ワクチンとケーストレンド のデータ資産を検索します
Covid 19 のワクチンとケースの傾向資産の名前ではなく、ボックスを選択します。
ヒント
アセットの青い名前を選択すると、アセットの詳細を示す新しいウィンドウが開きます。
AgeGroupVacc 列の横にあるラジオ ボタンを選択します。
[追加] を選択します。
作成した CDE の上部にある [ データ品質 ] タブを選択して、CDE にデータ品質ルールを適用します。 用語集の用語とガバナンス ドメインのポリシーを追加する方法と似ています。
[新しいルール] を選択します
[データ型の一致] を選択します
「ルール名:年齢グループの書式設定を確認する」と入力します
[作成] を選択します。
CDE で [発行] を選択します
この CDE では、Covid 19 のワクチンとケースの傾向資産を使用するすべてのデータ製品にデータ品質ルールが自動的に適用されるようになりました。これは、次のセクションで確認できます。
- 他のドメインで他の 2 つの CDEs を作成してみてください。 いくつかのアイデアを次に示します。
- 売上: 収益と販売者名
- 会社: 製品 ID
手順 2: データ マップにデータを設定して登録する
スキャンに使用できるデータ ソースがない場合は、次の手順に従って、Azure Data Lake Storage (ADLS Gen2) の例を完全にデプロイします。
ヒント
Microsoft Purview アカウントと同じテナントに既にデータ ソースがある場合は、このセクションの次の部分に進んで資産をスキャンします。
実際のデータ資産では、さまざまなデータ アプリケーションでさまざまなシステムが使用されています。 Fabric や Snowflake などのレポート環境では、チームがデータのコピーを使用して分析ソリューションを構築し、レポートとダッシュボードを強化します。 アプリケーション チームまたは顧客が、プロセス中に行われた決定に基づいてデータを収集または追加するビジネス プロセスを完了するために使用する運用データ システムがあります。
より現実的なデータ資産を作成するには、カタログ内の多くのデータ ソースを表示します。これは、会社が持つ可能性があるさまざまなデータ使用の幅をカバーできます。 ユース ケースを強化するために必要なデータの種類は、レポートやダッシュボードを必要とするビジネス ユーザーと大きく異なる場合があります。アナリストは、レポートを構築するために準拠したディメンションと事実を必要とし、データ サイエンティストまたはデータ エンジニアは、データを収集するシステムから直接取得された生のソース データを必要とします。 これらすべてが、異なるユーザーが同じ場所でデータを見つけ、理解し、アクセスすることの重要性を確認できるようにします。
資産にデータを追加するその他のチュートリアルについては、次のガイドに従ってください。
- Fabric Lakehouse チュートリアル - レポート環境の基盤を提供します
- Azure SQL データベース (サンプル) – 運用データ ストアの適切に構造化された例を提供します
前提条件
- Azure のサブスクリプション: Azure 無料アカウントを今すぐ作成する
- テナントのMicrosoft Entra ID: Microsoft Entra ID ガバナンス
- Microsoft Purview アカウントと 管理者特権 (Microsoft Purview アカウントを作成した場合の既定値)。
- すべてのリソース。Microsoft Purview、データ ソース、Microsoft Entra ID は、同じクラウド テナントに存在する必要があります。
データ資産を設定する
A. ストレージ アカウントを作成して設定する
- このガイドに従ってストレージ アカウントを作成する: Azure Data Lake Storage Gen2用のストレージ アカウントを作成する
- 新しいデータ レイクのコンテナーを作成します。
- ストレージ アカウントの [概要 ] ページに移動します。
- [データ ストレージ] セクションの [ コンテナー ] タブを選択します。
- [ コンテナー] を選択します。
- コンテナーに "bronze" という名前を付け、[ 作成] を選択します。
- "gold" コンテナーを作成するには、次の手順を繰り返します。
- data.gov から CSV データの例をダウンロードする: Covid-19 ワクチン接種とケースの傾向 :年齢グループ別、米国
- 作成したストレージ アカウントの "bronze" という名前のコンテナーに CSV をアップロードします。
- "bronze" という名前のコンテナーを選択し、[ アップロード] を選択します。
- CSV を保存した場所を参照し、 Covid-19_Vaccination_Case _Trends ファイルを選択します。
- [アップロード] を選択します。
B. Azure Data Factoryを作成する
この手順では、メダリオン データ レイクのレイヤー間でデータがどのように移動されるかを示し、コンシューマーが使用すると予想される標準化された形式でデータを確保します。 この手順は、データ品質を実行するための前提条件です。
このガイドに従ってAzure Data Factoryを作成する: Azure Data Factoryを作成する
このAzure Data Factory ガイドを使用して、"ブロンズ" コンテナーの CSV から "gold" コンテナーに Delta 形式のテーブルにデータをコピーする: マッピング データ フローを使用してデータを変換する
作成された ADF リソースの [概要] タブで [Launch studio] を選択して、Azure portalから Azure Data Factory (ADF) エクスペリエンスを開きます。
ADF Studio の [ 作成者 ] タブを選択します。
+ コマンドを選択し、[データ フロー] を選択します。
データフローに "CSVtoDeltaC19VaxTrends" という名前を付けます。
空のボックスで [ ソースの追加] を選択します。
[ソース設定] を に設定します。
- 出力ストリーム名: 'C19csv'
- 説明: 空白のままにします
- ソースの種類: インライン
- インライン データセットの種類: 区切りテキスト
- リンクされたサービス: csv を保存したデータ レイクを選択します
[ソース オプション] を 次のように設定します。
- ファイル モード: ファイル
- ファイル パス: /bronze/ Covid-19_Vaccination_Case _Trends
- ファイルが見つからない場合: オフのままにします
- データ キャプチャを変更する: オフのままにします
- 圧縮の種類: なし
- エンコード: Default(UTF-8)
- 列区切り記号: コンマ (,)
- 行区切り記号: Default(\r、\n、または\r\n)
- 見積もり文字: 二重引用符 (")
- エスケープ文字: 円記号 ()
- ヘッダーとしての最初の行: CHECKED
- 残りは既定値のままにします
作成したソースで [次へ ] を選択し、[シンク] を選択 します。
"ブロンズ" の csv から 'gold' のデルタ テーブルにデータを移動するために格納するデータの形式と場所を示すシンクを作成します。
- Sink の値を設定します (指定しない限り、すべての設定は既定値のままにします)。
- シンクの種類: インライン。
- インライン データセットの種類: Delta。
- リンクされたサービス: 別のコンテナーに格納するため、ソースで使用されるのと同じデータ レイク。
[設定] の値を設定します (指定しない限り、すべての設定は既定値のままにします)
- フォルダー パス: gold/Covid19 ワクチンとケースの傾向。
この名前はデータを格納する方法であり、選択するデータが存在しないため、値を入力します。
[ 検証] を選択します。 このアクションでは、データ フローを確認し、エラーを修正する手順を示します。
[ すべて発行] を選択します。
+ コマンドを選択し、[パイプライン] を選択します。
パイプラインに "CSV to Delta C19 Vax Trends" という名前を付けます。
前の手順 CSV で作成したデータフローを Delta (C19VaxTrends) に選択し、開いているパイプライン タブにドラッグ アンド ドロップします。
[ 検証] を選択します。
[発行] を選択します。
[ デバッグ ] (アクティビティ ランタイムを使用) を選択してパイプラインを実行します。
ヒント
デルタ形式のスペースまたは不適切な文字のエラーが発生した場合は、ダウンロードした CSV を開き、修正を行います。 次に、ブロンズ ゾーンの CSV を再アップロードして上書きします。 次に、パイプラインを再実行します。
データ レイク内のゴールド コンテナーに移動すると、パイプライン中に作成された新しい Delta テーブルが表示されます。
資産をスキャンする
データ 資産をデータ マップにスキャンしていない場合は、次の手順に従ってデータ マップを設定します。
データ資産内のソースをスキャンすると、それらのソース内のデータ資産 (テーブル、ファイル、フォルダー、レポートなど) のメタデータが自動的に収集されます。 データ ソースを登録してスキャンを作成すると、カタログに表示されるソースと資産に対する技術的所有権が確立されます。 また、Microsoft Purview でどのメタデータにアクセスできるかを制御することもできます。 ソースと資産をドメイン レベルで登録して格納する場合は、最上位レベルのアクセス階層に格納します。 通常は、資産メタデータをスキャンし、そのデータの適切なアクセス階層を確立するコレクションをいくつか作成することをお勧めします。
-
Microsoft Purview マネージド ID (MSI) の閲覧者アクセス権をデータ レイクまたは他のデータ ストアに提供します。
ヒント
MSI は、Microsoft Purview インスタンスのアカウント名です。
Fabric または SQL を使用する場合は、次のガイドを使用してアクセスを提供します。
データ レイクを登録して資産をスキャンする
[データ マップ] の [ドメイン] タブで、ドメインの ロールの割り当てを 選択します (これは Microsoft Purview アカウントの名前です)。
- 自分をデータ ソース管理者として追加し、データ キュレーターをドメインに追加します。
- ロール [データ ソース管理者] の横にあるユーザー アイコンを選択します。1. Microsoft Entra ID で名前を検索します (Microsoft Entra ID の場合とまったく同じスペルの完全な名前を入力する必要がある場合があります)。
- [OK] を選択します。
- データ キュレーターに対してこれらの手順を繰り返します。
- 自分をデータ ソース管理者として追加し、データ キュレーターをドメインに追加します。
データ レイクを登録します。
- [データ ソース] タブを選択します。
- [登録] を選択します。
- Azure Data Lake Storage Gen2ストレージの種類を選択します。
接続する詳細を指定します。
- サブスクリプション (省略可能)
- データ ソース名 (これは ADLS Gen2 ソースの名前)
- 資産メタデータを格納する必要があるコレクション (省略可能)
- [ 登録] を選択します
データ ソースの登録が完了したら、スキャンを構成できます。 登録は、Microsoft Purview がデータ ソースに接続され、所有権の正しいコレクションに配置されていることを意味します。 スキャンにより、ソースからメタデータが読み取られ、データ マップ内の資産が設定されます。
[データ ソース] タブで登録したソースを選択します
新しいスキャンを選択し、詳細を指定します。
- このスキャンに既定の統合ランタイムを使用する
- 資格情報は Microsoft Purview MSI (システム) である必要があります
- スキャン レベルは自動検出です
- コレクションを選択するか、ドメインを使用します (コレクションは、データ ソースが登録されたのと同じコレクションまたは子コレクションである必要があります)
- [続行] を選択します
ヒント
この時点で、接続がテストされ、スキャンが実行できることを検証します。 データ ソースに対して Microsoft Purview MSI 閲覧者アクセス権を付与しない場合、失敗します。 データ ソースの所有者でない場合、またはユーザー アクセス共同作成者がいない場合、接続の作成に対する承認が求められるため、スキャンは失敗します。
ここで、チュートリアルの建物データ セクションにデルタ テーブルを配置したコンテナー "gold" のみを選択します。 この選択により、データ ストア内の他のデータ資産をスキャンできなくなります。
- ゴールドの横に青いチェックが 1 つしかない場合は、すべてのソースをスキャンし、使用するアセットを作成するため、すべての横にチェックを残すことができます。
- [ 続行] を選択します
[スキャン ルール セットの選択] 画面で、既定のスキャン ルール セットを使用する必要があります。
[ 続行] を選択します
[スキャン トリガーの設定] では、スキャンの頻度を設定して、引き続きレイクのゴールド コンテナーにデータ資産を追加すると、データ マップが設定されます。 [ 1 回] を選択します。
[続行] を選択します。
[ 保存して実行] を選択します。 このアクションでは、データ レイクの gold コンテナーからメタデータを読み取り、次のセクションの統合カタログで使用するテーブルを設定するスキャンを作成します。 [保存] のみを選択した場合、スキャンは実行されません。また、アセットは表示されません。 スキャンが実行されると、作成したスキャンが [ 最終実行 状態 ] の [キューに入った] と表示されます。 スキャン読み取りが完了すると、資産は次のセクションの準備が整います。 ソースに含まれる資産の数によっては、このプロセスに数分または数時間かかることがあります。
手順 3: データ製品を発行する
データ製品を作成することは、organizationが適切なデータを検出できるようにするために不可欠です。 データ製品は、使用または制限された値がないため、データ資産内の価値が低いデータや価値のないデータのオーバーガオーバーを防ぐのに役立ちます。 データエキスパートがデータ製品を公開すると、最も価値のあるデータをアクティブ化し、その価値に基づいて適切なレベルのガバナンスを構築します。 技術チームがビジネス目的を知らない資産をキュレーションしたり、複雑で成長しているデータ資産内のすべてを管理しようとすると、余分な時間が発生し、生産性が低下し、使用されることも、資産から削除される可能性もないデータの詳細を追い詰めます。 代わりに、価値があり、さらに多くの価値を発見して構築する必要があるデータの部分に焦点を当てます。 チームがより多くのデータを使用し、必要な内容をより深く理解するにつれて、これらの要求を満たすために、より有用なデータ製品を作成できます。 ガバナンスは、データの値と機密性に基づいて常に適切なサイズを維持するように適応できます。
前提条件
- 使用している ガバナンス ドメインのデータ製品所有者 になる。
- データ マップにデータ資産を含めます。 そうでない場合は、 このチュートリアルのセクション 2 を参照して、いくつかを追加してください。
- ガバナンス ドメインを発行してデータ製品を発行します。 お持ちでない場合は、 このチュートリアルのセクション 1 を参照して作成してください。
データ製品を作成して発行する
Microsoft Purview ポータルを開きます。
[統合カタログ] を選択します。
[ カタログ管理 ] を選択し、[ ガバナンス ドメイン] を選択します。
[ ガバナンス ドメイン ] ページで、Personal Health ドメインを選択します。
[ビジネスの概念] で [データ製品に移動] を選択します。
ここでは、データ製品の所有者と呼ばれるデータの専門家が、organization内の他のユーザーが使用することを意図したデータ資産を特定し、それらを使用可能にするために必要な情報を提供します。
[ 新しいデータ製品] を選択します。
データ製品の詳細を入力します。 1. 名前: "Covid-19 ワクチン接種と年齢別ケーストレンド" 1.説明: "このデータは、米国保健省 & ヒューマン サービスの一部として CDC から取得されます。 このデータには、米国国内レベルのワクチン接種と症例の年齢別の傾向が含まれています。 データは少なくとも1回の用量で階層化され、完全にワクチン接種される。 また、データは、管轄パートナーのクリニック、小売薬局、介護施設、透析センター、連邦緊急管理局および医療資源サービス管理パートナーサイト、連邦法人施設を含むすべてのワクチンパートナーを表しています。
- 型: データセット
- [次へ] を選択します。
- ユース ケース:
This data is provided for public use and is intended to help understand the trends of vaccination up take and new cases by different age groups. The ages are banded into two groups ranging from <2 years to 65+ years. Similarly the trends are provided in daily numbers that provide seven day average of new cases by age group. - [ 保証 済み] としてオンに設定します。
- [保存] を選択します。
これで、データ製品の基本メタデータが組み込まれています。次に、いくつかのプロパティを追加し、Data Map からアセットをマップします。
[ データ資産の追加] を選択します。
データ ソースのすべてのフォルダーとレイヤーなど、データ マップにスキャンした資産が表示されます。
データ レイクのゴールド コンテナーに追加した Covid19 ワクチンとケースの傾向 資産を検索し、このリソース セットを選択します。
[追加] を選択します。 1 つのデータ製品に必要な数だけ資産を選択できますが、ここで必要なものは 1 つだけです。
ヒント
[ 提案の取得] を選択して、データ マップ内の資産から生成 AI のヘルプを選択し、結果の一覧から [Covid19 ワクチンとケースの傾向] を選択します。
これで、データ製品に追加された資産が表示されます。
用語集 の用語 タイトルの横にある [用語の追加] を選択します。
前に作成したアウトブレイク用語を選択し、[追加] を選択 します。
現在、データ製品にマップされている資産の年齢グループの重要なデータ要素が表示されます。
OKR タイトルの横にある [OKR の 追加] を選択します。
効果的な患者ワクチンの取り込みを有効にして、パンデミックリスクを軽減するを選択します。 これは、最初のセクションで作成した目的です。
データ製品のアクセス要求ポリシーを管理する
ページの上部にあるデータ製品を公開する前の最後の手順は、[ ポリシーの管理] を選択することです。 ここでは、選択を行い、承認の名前を指定することで、アクセス ポリシーを構成し、アクセス ワークフローを要求します。 [ 継承されたポリシー ] タブを使用して、前に適用したデータ コピー構成証明に適用されたガバナンス ドメイン ポリシーを確認することもできます。 アウトブレイク用語集の用語に由来する マネージャーの承認 が必要な場合も同じです。
[ ポリシーの管理 ] タブを選択します。
[ アクセス時間制限] で、更新が必要になるまでのアクセス要求が適切な期間の詳細を指定します。 この値を設定して、最大 1 年間アクセス権を付与します。
ボックスに「1」と入力します。
ドロップダウンで年を選択します。
[承認要件] で、[承認者] ボックスに自分の名前を指定します。 (Microsoft Entra ID に登録されている名前が必要です)。
注:
そのポリシーはアウトブレイク用語集の用語から継承されるため、マネージャーの承認をチェックする必要はありません。
[ プレビュー要求フォーム ] を選択して、アクセスを要求するときにカタログ コンシューマーが表示する内容を確認します。 ガバナンス ドメインと用語集の用語によって設定されているため、必要なデータ コピー構成証明とマネージャーの承認が表示されます。
[変更の保存] を選択します。
データ資産をマップし、アクセス ポリシーを構成したら、データ製品をカタログに発行する準備が整います。
データ製品で [発行] を選択します。
前に作成した他のドメインで利益レポートを作成してみてください
- 利益レポート、種類: ダッシュボード/レポート。
- 製品マスター、種類: Maser データと参照データ。
注:
これらに多数の資産を追加し、多くの資産を持つデータ製品がどのように見えるかを確認できます。 任意のドメインの用語にデータ製品を追加して、用語の一貫性のあるセットを使用して用語集を使用してデータを記述する方法を確認します。
手順 4: データ品質を実行する
カタログでデータ製品を使用できるようになったので、データ品質ルールを実行すると、データの状態が良好であり、使用する準備ができていることがすべてのユーザーに通知されます。 データの詳細については、新しいデータ品質ルールを追加して、すべてのユース ケースに適していることを確認します。 データ製品が最高品質であることを確認することは、データに対する信頼を構築するのに役立ち、他のユーザーが監視および改善していることを示します。 データの価値が高まるにつれて、そのデータの品質をより詳細に監視および制御する必要があります。 管理が不十分なデータ品質の問題は、重大な悪影響を引き起こす可能性があります。
前提条件
- データ品質ルールは、ADLS Gen2 と Microsoft Fabric の差分書式テーブルでのみ実行できます。
- Microsoft Purview のマネージド ID は、現在サポートされているデータ品質の唯一の資格情報であるため、データ ソースの読み取りを有効にする必要があります。
- データ品質を実行しているガバナンス ドメインには、 データ品質スチュワード ロール が必要です。
- データをスキャンするための適切なセキュリティ承認を確保するには、データ品質スキャンを接続しているデータ ソースへの所有者またはユーザー アクセス管理者アクセス権が必要です。
- データに対してプロファイルを実行するには、 データ プロファイル スチュワード ロール が必要です。
データ品質ルールを作成して実行する
Microsoft Purview ポータルを開きます。
[統合カタログ] を選択します。
[データ管理] の [ データ品質 ] タブ を選択します。
セクション 1 で作成した個人用正常性ドメインを選択します。
[管理] を選択し、[Connections] を選択します。 この接続を構築すると、そのガバナンス ドメイン内のデータ ソースでデータ品質スキャンを実行できます。 この手順により、チームは適切な承認なしでデータの知識にアクセスできなくなります。
[接続] 画面で [ 新規 ] を選択して新しい接続を作成します。1.表示名 "Personal Health ADLSg2 DQ" を入力します。
- Azure Data Lake Storage Gen2のソースの種類を選択します。
-
セクション 2 で作成したデータ ソースの詳細を入力します。
注:
資格情報は、データ品質接続の Microsoft Purview MSI (システム) である必要があります。
- [ 接続のテスト] を選択します。
- 接続がテストされたら、[送信] を選択 します。
-
セクション 2 で作成したデータ ソースの詳細を入力します。
- Azure Data Lake Storage Gen2のソースの種類を選択します。
接続が確立されたら、プロファイルを実行し、データ品質ルールの構築を開始する準備が整います。 この手順により、ビジネス ルールと適切なルールを把握しているエキスパートが、最も重要なデータ製品で実行されます。
- [データ品質] ページに戻るします。
- Personal Health ガバナンス ドメインを選択します。
- セクション 3 に組み込まれている Covid-19 ワクチン接種とケース トレンド別の年齢別データ製品を選択します。
- データ製品に追加した資産を選択します。 ( セクション 2 からの差分形式である必要があります。データ品質は実行されません)。
- データの列にデータ品質ルールを適用して、品質に対する期待を満たしているかどうかを測定します。
- 選択した資産の [ ルール ] タブを選択します。
- [ 新しいルール] を選択します。
- [空/空白フィールド ルール] を選択します。
- 詳細を入力します。
- [列] ドロップダウンから [AgeGroupVacc 列] を選択します
- 規則名: ワクチン接種年齢グループが存在することを確認する
- [作成] を選択します。
- [ 新しいルール] を選択します。
- [ データ型の一致] を選択します。
- 詳細を入力します。
- DateAdministered 列を選択します。
- [作成] を選択します。
- [ データ品質スキャンの実行] を選択します。
プロファイル データ
データのプロファイルを作成して、各列の高レベルの統計情報を確認し、新しいルールを必要とする可能性がある異常を検出します。
- 統合カタログで、[正常性管理] を選択し、[データ品質] を選択します。
- [ プロファイル データ] を選択します。
- [ 列名 ] の横にある上部のボックスをオンにして、すべての列をプロファイリングします。 プロファイルする列が推奨され、プロファイリングの価値があるとわかっている列を選択して、機密性の高いデータまたはデータのプロファイルの設定が少なくなるのを防ぐことができます。
- [ プロファイルの実行] を選択します。
スキャンが完了したら、新しいデータ製品のデータ品質スコアとプロファイルを確認できます。 カタログのすべてのユーザーがデータ品質スコアを確認できるため、すべてのユーザーがデータの状態を把握できます。
データ品質スキャンのスケジュールを作成して、データ品質の問題を継続的に監視できるようにします。 コンシューマーが影響を受ける前にデータ品質の問題に対処するようにアラートを設定します。
- [ 正常性管理] で、[ データ品質] を選択します。
- データ品質規則を構成した Personal Health ドメインを選択します。
- [ 管理 ] ドロップダウン リストで、[ スケジュールされたスキャン] を選択します。
- [ スケジュールされたスキャン ] ページで、[新規] を選択 します。
-
概要の詳細を追加する
- 名前: Personal Health DQ 月次評価
- 説明: 継続的な改善のための DQ ルールの毎月のスキャン。
- [ 続行] を選択します
- スキャンのスコープを選択する
- Covid-19 ワクチン接種とケーストレンドの横にあるチェックボックスをオンにします(年齢別データ製品別)
- [ 続行] を選択します
- 毎月の最終日に実行されるようにスキャンをスケジュールする
- [ 定期的] を選択する
- 繰り返し: 1 か月ごとに
- 月の日数: 最後
- スキャン時刻のスケジュール (UTC): 12:00:00
- 繰り返しを開始する (UTC): 既定値のままにします
- [ 続行] を選択します
- スキャンの詳細を確認して、保存する前に行う変更があるかどうかを確認します。
- [保存] を選択します。 以前に手動スキャンをトリガーしたので、別のスキャンを今すぐトリガーする必要はありません。 新しいスキャンが必要な場合は、[ 保存して実行] を選択します。
アラートを構成する
データ品質のスキャンをスケジュールした後、問題やデータ品質の問題やスキャンエラーに注意が必要な場合にスチュワードに通知するアラートを設定できます。 失敗したスキャンのデータ品質アラートと、スコアが 5% を超える減少した場合のデータ品質アラートを構成します。
- [データ品質] ページの [Personal Health] ドメインに戻ります。
- [ 管理 ] ドロップダウン リストから [ アラート] を選択します。
- [新規]を選択します。
- アラートの詳細を入力する
- 表示名: 個人用正常性 DQ 月次スキャン
- 説明: DQ の最小しきい値がコンシューマーの期待を満たしていることを確認します。
- ターゲット: スコアが以下に減少する
- しきい値: 5
- 通知をオフにする: オフのままにします
- 失敗した品質スキャンの通知を有効にする: オンのままにする
- 受信者: 自分の名前を入力します
- [続行] を選択します。
ヒント
統合カタログで実装する場合は、問題をコンシューマーに通知し、データの技術所有者と協力して修正を行うことができるスチュワードにアラートを送信します。
このセクションの最後では、運用データ品質を備えた機能統合カタログを備え、組織のデータコンシューマーに提供するデータを管理します。 コンシューマーに最も価値のあるデータを取得し、使用するデータに対する信頼を構築するために、すべてが設定されています。 データの価値が高くなり、新しいデータ戦略が出現するにつれて、次のセクションでは、カタログ全体を管理したり、マスター データを使用して特定のデータ管理をさらに深く行ったりする方法を示します。
手順 5: マスター データ管理
マスター データ管理 (MDM) は、このデータのエラーや問題がビジネス全体に影響を与える可能性があるため、正確で一意で、ビジネスのすべての領域で一貫して適用する必要がある最も重要なデータ エンティティに準拠する方法です。 MDM パートナーの 1 人を通じて、選択した MDM ソリューションを Microsoft Purview と統合して、ゴールデン レコードの作成とマスター データのデータ製品としての公開を可能にするデータの統合、標準化、クレンジングを実現できます。
選択したソリューションについては、Microsoft Purview でのマスター データ管理に関するチュートリアルに従ってください。
手順 6: データ正常性を管理する
統合カタログの正常性管理領域では、中央データ オフィスやその他のデータ マネージャーは、自社の基準に照らしてデータの状態を評価し、戦略の進捗状況を効果的に管理できます。 社内のすべてのユーザーがデータの価値を高めるために何ができるかを確実に把握するには、すべてのユーザーをデータ ガバナンスのエキスパートにすることなく、organization全体に対して標準を理解し、スケーラブルにすることが不可欠です。 すぐに使用できる業界標準のコントロール セットから始まり、各データ オフィスは、期待に合わせてコントロールをカスタマイズし、データ目標に合わせてコントロールを確実に調整できます。 これらのコントロールの有効性にとって重要なのは、これらの標準の測定だけでなく、データの責任者が自分でアクションを実行し、データの価値に影響を与える改善を行う責任を負うことを保証することです。 Data Estate Health では、これらすべての重要な機能を設定および管理できます。
前提条件
- 統合カタログで公開されているデータ製品、用語集の用語、およびその他のビジネス概念。 前のセクションに従って、次の概念を作成できます。
- データ製品のキュレーションから少なくとも 24 時間。
- 統合カタログにはデータ正常性所有者ロールが必要です。
データ資産の正常性を使用してデータ ガバナンスを評価する
Microsoft Purview ポータルを開きます。
[統合カタログ] を選択します。
左側のナビゲーションの [ データ資産の正常性 ] で、[ 正常性コントロール] を選択します。
[値の作成] コントロール グループの横にあるにんじんの>を選択します。
コントロール タイトルの上にマウス ポインターを合わせながら、鉛筆アイコンを選択してコントロールを編集します。 コントロールを編集することで、コントロールのしきい値を変更して、スコアの内容に対する期待値を設定し、進行状況ステージを示すカラー スコアリングを設定します。
詳細を使用すると、コントロールとその意味の説明をorganizationに指定し、特定のコントロールの所有者を設定できます。
コントロールの [ ルール ] タブを選択して、しきい値を変更します。 この設定には高い目標があり、正常でない場合は、フォローアップすることが重要です。
- [グループから継承]: トグルをオフにします (灰色になるはずです)。
- ターゲット スコア: 90
- [ 新しいルール] を選択します。
- スコアの横にあるボックスを GreaterThanOrEqual に設定します
- パーセンテージを 90 に設定する
- Status = Health (緑)
- Else Box Status = Critical (紫)
- [保存] を選択します。
[データ資産の正常性] で、[ メタデータの品質] を選択します。
ここでは、コントロールのスコアを作成するルールを変更または追加できます。 ここでは、すべてのユーザーがこのアクションの重要性を確実に把握できるように 、Value Creation のアクションの重大度を変更します。
- [ 重大度の構成] を選択します
- [値の作成] コントロール グループを選択します
- Business OKR の配置コントロール タイトルを選択します
- 重大度を [中] から [高] に変更し、[保存] を選択 します
- [ 正常性アクション ] タブを選択します
- 名前に割り当てられたフィルター:
- ガバナンスの期待が満たされていることを確認するためにアクションの所有者が何を行う必要があるかを確認できるアクションを選択するか、新しい所有者を割り当てて、最適な専門家に入力を提供してもらうことができます。 また、進行中の作業と、他のアクションの優先順位付けが必要な場所を他のユーザーに知らせる状態もあります。
手順 7: データの民主化
データの民主化により、ユーザーは必要なデータを準拠した方法で見つけてアクセスできます。 これにより、ビジネス価値を構築するために必要なデータをユーザーが見つけることができます。 統合カタログは、データを検出するためのクリーンで簡単なエクスペリエンスを提供します。 管理者は、カタログで利用できるデータを大規模に更新および管理できます。 このセクションでは、ユーザーがデータへのアクセスを見つけて要求する方法について説明し、適切な承認者がそれらのアクセス要求に対する入力を追跡および提供できることを確認します。
前提条件
- 少なくとも手順 1 から 4 を完了しました。
- 1 つのガバナンス ドメインのカタログ 閲覧者ロール
データ製品を検出する
- 統合カタログで、[検出] を選択し、[データ製品] を選択します。
- [ データ製品 ] ページで、検索バーを使用して、年齢別にワクチン接種率を検索します。
- セクション 2 で公開したデータ製品が表示されます。 このビューでは、ユーザーが目的のデータのみを表示し、高度に技術的なデータ資産をユーザーが移動できないようにする方法を示します。
-
Covid-19 ワクチン接種とケースの傾向を年齢別データ製品で選択する
- ここで、コンシューマーは、指定したメタデータと、セットアップ中に構成したその他のプロパティを確認できます。 データ品質スコアもここにあるため、コンシューマーはデータにアクセスする前に品質を把握しています。
- 資産を選択すると、コンシューマーはデータ資産で使用可能なすべての列を表示できます。
- アウトブレイク用語集の用語を選択すると、コンシューマーは用語に関する説明やその他の情報を確認して、データをより深く理解できます。
- コンシューマーがそのデータを使用することを確信したら、データへの承認されたアクセス権を取得する必要があります。
- [ アクセスの要求] を選択します
- フォームの詳細を入力して要求を送信します。
- ユーザー: 自分の名前のままにします
- マネージャーの承認: 自動的に必要となり、Microsoft Entra ID マネージャーに送信されます。
- 目的: 目的を選択する
- ビジネス上の正当な理由: OKR 監視
- 構成証明の横にあるチェック ボックスをオンにして、このデータの使用に対する期待を理解しているとします。
- [ 送信] を選択します。
これで、アクセス要求が一覧表示されたマネージャーにMicrosoft Entra ID で送信されます。 ここから、マネージャーは、メールを開いてリンクを選択するか、Microsoft Purview にアクセスすることで、要求にアクセスできます。 アクセスの承認と管理は、Microsoft Purview で直接行うことができます。
- 統合カタログで、[カタログ管理] を選択し、[要求] を選択します。
- [Personal Health] ドメインを選択します。
- 送信した要求を選択します。
- これで、承認者は要求に 応じて [応答 ] を選択して承認または辞退できます。