データマップスキャンのベストプラクティス

Microsoft Purview データマップでは、オンプレミス、マルチクラウド、およびサービスとしてのソフトウェア (SaaS) データソースの自動スキャンがサポートされます。

スキャンを実行すると、登録されたデータソースからメタデータの取り込みを開始します。スキャンとキュレーションプロセスの最後に、技術的なメタデータを含むキュレーションされたメタデータを取得します。このメタデータには、テーブル名やファイル名、ファイルサイズ、列、データ系列などのデータ資産名を含めることができます。構造化データソースの場合、スキーマの詳細もキャプチャされます。リレーショナルデータベース管理システムは、この種類のソースの例です。

キュレーションプロセスでは、構成したスキャンルールセットに基づいて、スキーマ属性に自動分類ラベルが適用されます。 Microsoft Purview アカウントが Microsoft Purview ポータルに接続されている場合は、秘密度ラベルが適用されます。

重要

ストレージアカウントの更新を妨げるAzure ポリシーがある場合、これらのポリシーは Microsoft Purview スキャンプロセスのエラーを引き起こします。 Microsoft Purview アカウントの例外を作成するには、「Microsoft Purview のAzure ポリシーの除外を作成する」を参照してください。

データソースを管理するためにベストプラクティスが必要な理由

ベストプラクティスは、次の場合に役立ちます。

コストを最適化します。
オペレーショナルエクセレンスを構築します。
セキュリティコンプライアンスを向上させます。
パフォーマンス効率を向上させます。

ソースを登録し、接続を確立する

次の設計上の考慮事項と推奨事項は、ソースを登録して接続を確立するのに役立ちます。

設計上の考慮事項

コレクションを使用して、地理的な場所、ビジネス機能、データソースなど、organizationの戦略に合わせた階層を作成します。階層は、登録およびスキャンするデータソースを定義します。
設計上、同じ Microsoft Purview アカウントにデータソースを複数回登録することはできません。このアーキテクチャは、同じデータソースに異なるアクセス制御を割り当てるリスクを回避するのに役立ちます。

設計に関する推奨事項

複数のチームが同じデータソースのメタデータを使用する場合は、親コレクションでデータソースを登録して管理します。次に、各サブコレクションの下に対応するスキャンを作成します。このようにして、関連する資産が各子コレクションの下に表示されます。マップビューでは、親を含まないソースが点線のボックスにグループ化されます。矢印は両親にリンクしません。
Azure サブスクリプションやリソースグループなど、複数のソースをクラウドに登録する必要がある場合は、Azure [複数] オプションを使用します。詳細については、次のドキュメントを参照してください。
データソースを登録した後、同じソースを複数回スキャンできます。チームや部署によって、同じソースがさまざまな方法で使用される場合があります。

データソースを登録するための階層を定義する方法の詳細については、「コレクションアーキテクチャのベストプラクティス」を参照してください。

スキャン

次の設計上の考慮事項と推奨事項は、スキャンプロセスに関連する重要な手順に基づいて編成されています。

設計上の考慮事項

データソースを登録したら、自動で安全なメタデータスキャンとキュレーションを管理するためのスキャンを設定します。
スキャンのセットアップには、スキャンの名前、スキャンのスコープ、統合ランタイム、スキャントリガーの頻度、スキャンルールセット、およびリソースセットの構成が、スキャン頻度ごとにデータソースごとに一意に行われます。
資格情報を作成する前に、データソースの種類とネットワーク要件を検討してください。この情報は、シナリオに必要な認証方法と統合ランタイムを決定するのに役立ちます。

設計に関する推奨事項

関連するコレクションにソースを登録したら、スキャンを設定するときに、この例に示されている順序を計画して従います。このプロセス順序は、予期しないコストとやり直しを回避するのに役立ちます。

スキャンの準備中に従う順序を示すスクリーンショット。

システムの組み込みの分類規則から分類要件を特定します。または、必要に応じて、特定のカスタム分類ルールを作成します。特定の業界、ビジネス、または地域の要件に基づいて作成します。この要件は、すぐには使用できません。
- 分類のベストプラクティスを参照してください。
- カスタム分類と分類ルールを作成する方法を参照してください。
スキャンを構成する前に、スキャンルールセットを作成します。スキャンルールセットを作成するときは、次の点を確認します。
- スキャンするデータソースに対して、システムの既定のスキャン規則セットで十分かどうかを確認します。それ以外の場合は、カスタムスキャンルールセットを定義します。
- カスタムスキャンルールセットには、システムの既定ルールとカスタムルールの両方を含めることができるため、スキャンするデータ資産に関連しないオプションをクリアします。
- 必要に応じて、不要な分類ラベルを除外するカスタムルールセットを作成します。たとえば、システムルールセットには、米国だけでなく、惑星の一般的な政府コードパターンが含まれています。データは、"ベルギーの運転免許証番号" など、他の種類のパターンと一致する場合があります。
- 煩雑にならないように、カスタム分類ルールを 最も重要 で 関連する ラベルに制限します。アセットにタグ付けされたラベルが多すぎないようにします。
- カスタム分類またはスキャンルールセットを変更すると、フルスキャンがトリガーされます。再作業やコストのかかるフルスキャンを回避するために、分類とスキャンルールセットを適切に構成します。
  
  注:
  
  ストレージアカウントをスキャンすると、Microsoft Purview は、定義されたパターンのセットを使用して、資産のグループがリソースセットを形成するかどうかを判断します。リソースセットパターンルールを使用して、Microsoft Purview がリソースセットとしてグループ化されている資産を検出する方法をカスタマイズまたはオーバーライドできます。また、ルールによって、カタログ内での資産の表示方法も決定されます。詳細については、「リソースセットパターンルールの作成」を参照してください。この機能にはコストに関する考慮事項があります。詳細については、 Microsoft Purview の価格サイトを参照してください。
登録済みデータソースのスキャンを設定します。 - スキャン名: 既定では、Microsoft Purview は SCAN -[A-Z][a-z][a-z] という名前付け規則を使用します。これは、実行したスキャンを特定する際には役に立ちません。わかりやすい名前付け規則を使用します。たとえば、スキャン 環境-source-frequency-time に DEVODS-Daily-0200 という名前を付けます。この名前は、0200 時間の毎日のスキャンを表します。
- 認証: Microsoft Purview では、ソースの種類に応じて、データソースをスキャンするためのさまざまな認証方法が提供されます。クラウド、オンプレミス、または Microsoft 以外のソースAzure可能性があります。認証方法の最小特権原則に従って、次の優先順位に従います。
  - Microsoft Purview MSI - マネージドサービス ID (Azure Data Lake Storage Gen2 ソースなど)
  - ユーザー割り当てマネージド ID
  - サービスプリンシパル
  - SQL 認証 (たとえば、オンプレミスまたはAzure SQL ソースの場合)
  - アカウントキーまたは基本認証 (SAP S/4HANA ソースなど)
  詳細については、資格情報を管理するためのハウツーガイドを参照してください。
  
  注:
  
  ストレージアカウントのファイアウォールを有効にする場合は、スキャンを設定するときにマネージド ID 認証方法を使用する必要があります。新しい資格情報を設定する場合、資格情報名には 文字、数字、アンダースコア、ハイフンのみを含めることができます。
- 統合ランタイム
  - 詳細については、「ネットワークアーキテクチャのベストプラクティス」を参照してください。
  - セルフホステッド統合ランタイム (SHIR) が削除されると、それに依存する進行中のスキャンは失敗します。
  - SHIR を使用する場合は、スキャンするデータソースのメモリで十分であることを確認します。たとえば、SAP ソースのスキャンに SHIR を使用すると、"メモリ不足エラー" と表示される場合は、次のようになります。
    - SHIR マシンに十分なメモリがあることを確認します。推奨される量は 128 GB です。
    - スキャン設定で、使用可能な最大メモリを適切な値 (100 など) として設定します。
    - 詳細については、「 SAP ECC Microsoft Purview のスキャンと管理」の前提条件を参照してください。
- スコープスキャン
  - スキャンのスコープを設定する場合は、詳細レベルまたは親レベルで関連する資産のみを選択します。この方法により、スキャンコストが最適であり、パフォーマンスが効率的になります。親が完全または部分的にチェックされている場合、特定の親の下のすべての将来の資産が自動的に選択されます。
  - 一部のデータソースの例を次に示します。
    - データベースまたはData Lake Storage Gen2 Azure SQLの場合は、データソースの特定の部分にスキャンのスコープを設定できます。フォルダー、サブフォルダー、コレクション、スキーマなど、リスト内の適切な項目を選択します。
    - Oracle、Hive メタストアデータベース、Teradata ソースの場合は、セミコロンで区切られた値またはスキーマ名パターンを使用してエクスポートするスキーマの特定のリストを指定できます。
    - Google Big クエリの場合は、セミコロンで区切られた値を使用してエクスポートするデータセットの特定のリストを指定できます。
    - AWS アカウント全体のスキャンを作成する場合は、スキャンする特定のバケットを選択できます。特定の AWS S3 バケットのスキャンを作成するときに、スキャンする特定のフォルダーを選択できます。
    - Erwin の場合は、Erwin モデルロケーター文字列のセミコロン区切りのリストを指定することで、スキャンのスコープを設定できます。
    - Cassandra の場合は、セミコロンで区切られた値またはキースペースの名前パターンを使用してエクスポートするキースペースの特定のリストを指定できます。
    - Looker の場合、スキャンの範囲を指定するには、セミコロンで区切られた Looker プロジェクトの一覧を指定します。
    - Power BI テナントの場合は、個人用ワークスペースを含めるか除外するかを指定するだけです。
  - 一般に、ワイルドカード (データレイクなど) に基づいてサポートされているパターンを無視して、一時、構成ファイル、RDBMS システムテーブル、バックアップまたは STG テーブルを除外します。
  - ドキュメントや非構造化データをスキャンする場合は、そのようなドキュメントの膨大な数をスキャンしないようにします。スキャンでは、このようなドキュメントの最初の 20 MB が処理され、スキャン期間が長くなる可能性があります。
- スキャンルールセット
  - スキャンルールセットを選択するときは、先ほど作成した関連システムまたはカスタムスキャンルールセットを必ず構成してください。 - カスタムファイルの種類を作成し、それに応じて詳細を入力できます。現在、Microsoft Purview では、カスタム区切り記号でサポートされている文字は 1 つだけです。実際のデータで ~などのカスタム区切り記号を使用する場合は、新しいスキャンルールセットを作成する必要があります。
- スキャンの種類とスケジュール
  - フルスキャンまたは増分スキャンを実行するようにスキャンプロセスを構成できます。
  - 非ビジネスまたはピーク時以外の時間帯にスキャンを実行して、ソースに対する処理オーバーロードを回避します。
  - 最初のスキャンはフルスキャンであり、後続のスキャンはすべて増分です。後続のスキャンを定期的な増分スキャンとしてスケジュールできます。サポートされているスケジュールオプションの詳細については、こちらをご覧ください。
  - スキャンの頻度は、データソースまたはビジネス要件の変更管理スケジュールと一致している必要があります。例:
    - ソース構造が毎週変更される可能性がある場合は、スキャン頻度を同期する必要があります。変更には、追加、変更、または削除された資産内の新しい資産またはフィールドが含まれます。
    - 分類ラベルまたは秘密度ラベルを週単位で更新する必要がある場合 (規制上の理由など)、スキャン頻度は毎週にする必要があります。 - パーティションファイルがソースデータレイクに毎週追加される場合は、毎月のスキャンをスケジュールできます。メタデータに変更がないため、毎週のスキャンをスケジュールする必要はありません。この提案では、新しい分類シナリオがないことを前提としています。
    - スキャンを実行できる最大期間は 7 日間です。メモリの問題が原因である可能性があります。この期間は、インジェストプロセスを除外します。 7 日後に進行状況が更新されない場合、スキャンは失敗としてマークされます。現在、インジェスト (カタログへの) プロセスにはそのような制限はありません。
- スキャンの取り消し
  - 現時点では、スキャンをトリガーした後にスキャンの状態が "キューに入っている" 状態に移行した場合にのみ、スキャンをキャンセルまたは一時停止できます。
  - 個々の子スキャンの取り消しはサポートされていません。

注意すべき点

スキャンの実行後にソースシステムからフィールド、列、テーブル、またはファイルを削除した場合、Microsoft Purview では、次にスケジュールされた完全スキャンまたは増分スキャンの後にのみ削除が表示されます。
Microsoft Purview カタログから資産を削除するには、資産名の下にある [削除 ] を選択します。このアクションでは、ソース内のオブジェクトは削除されません。同じソースでフルスキャンを実行すると、スキャンによってカタログ内のオブジェクトが再び読み込まれます。増分スキャンを実行した場合、削除された資産は、ソースでオブジェクトが変更されない限り、取得されません。たとえば、列がテーブルに追加または削除された場合などです。
従来の Microsoft Purview ガバナンスポータルを使用してデータ資産または基になるスキーマを 手動で 編集した後の後続のスキャンの動作を理解するには、クラシックカタログ資産の詳細を参照してください。
詳細については、資産の表示、編集、削除の方法に関するページを参照してください。

次の手順

データソースの管理

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-06-06

次の方法で共有

データ マップ スキャンのベスト プラクティス

データ ソースを管理するためにベスト プラクティスが必要な理由

ソースを登録し、接続を確立する

設計上の考慮事項

設計に関する推奨事項

スキャン

設計上の考慮事項

設計に関する推奨事項

注意すべき点

次の手順

フィードバック

その他のリソース

データマップスキャンのベストプラクティス

データソースを管理するためにベストプラクティスが必要な理由