Microsoft Purview データ マップでは、オンプレミス、マルチクラウド、およびサービスとしてのソフトウェア (SaaS) データ ソースの自動スキャンがサポートされます。
スキャンを実行すると、登録されたデータ ソースからメタデータの取り込みを開始します。 スキャンとキュレーション プロセスの最後に、技術的なメタデータを含むキュレーションされたメタデータを取得します。 このメタデータには、テーブル名やファイル名、ファイル サイズ、列、データ系列などのデータ資産名を含めることができます。 構造化データ ソースの場合、スキーマの詳細もキャプチャされます。 リレーショナル データベース管理システムは、この種類のソースの例です。
キュレーション プロセスでは、構成したスキャン ルール セットに基づいて、スキーマ属性に自動分類ラベルが適用されます。 Microsoft Purview アカウントが Microsoft Purview ポータルに接続されている場合は、秘密度ラベルが適用されます。
重要
ストレージ アカウントの更新を妨げるAzure ポリシーがある場合、これらのポリシーは Microsoft Purview スキャン プロセスのエラーを引き起こします。 Microsoft Purview アカウントの例外を作成するには、「Microsoft Purview のAzure ポリシーの除外を作成する」を参照してください。
データ ソースを管理するためにベスト プラクティスが必要な理由
ベスト プラクティスは、次の場合に役立ちます。
- コストを最適化します。
- オペレーショナル エクセレンスを構築します。
- セキュリティ コンプライアンスを向上させます。
- パフォーマンス効率を向上させます。
ソースを登録し、接続を確立する
次の設計上の考慮事項と推奨事項は、ソースを登録して接続を確立するのに役立ちます。
設計上の考慮事項
- コレクションを使用して、地理的な場所、ビジネス機能、データソースなど、organizationの戦略に合わせた階層を作成します。 階層は、登録およびスキャンするデータ ソースを定義します。
- 設計上、同じ Microsoft Purview アカウントにデータ ソースを複数回登録することはできません。 このアーキテクチャは、同じデータ ソースに異なるアクセス制御を割り当てるリスクを回避するのに役立ちます。
設計に関する推奨事項
複数のチームが同じデータ ソースのメタデータを使用する場合は、親コレクションでデータ ソースを登録して管理します。 次に、各サブコレクションの下に対応するスキャンを作成します。 このようにして、関連する資産が各子コレクションの下に表示されます。 マップ ビューでは、親を含まないソースが点線のボックスにグループ化されます。 矢印は両親にリンクしません。
Azure サブスクリプションやリソース グループなど、複数のソースをクラウドに登録する必要がある場合は、Azure [複数] オプションを使用します。 詳細については、次のドキュメントを参照してください。
データ ソースを登録した後、同じソースを複数回スキャンできます。 チームや部署によって、同じソースがさまざまな方法で使用される場合があります。
データ ソースを登録するための階層を定義する方法の詳細については、「 コレクション アーキテクチャのベスト プラクティス」を参照してください。
スキャン
次の設計上の考慮事項と推奨事項は、スキャン プロセスに関連する重要な手順に基づいて編成されています。
設計上の考慮事項
- データ ソースを登録したら、自動で安全なメタデータスキャンとキュレーションを管理するためのスキャンを設定します。
- スキャンのセットアップには、スキャンの名前、スキャンのスコープ、統合ランタイム、スキャン トリガーの頻度、スキャン ルール セット、およびリソース セットの構成が、スキャン頻度ごとにデータ ソースごとに一意に行われます。
- 資格情報を作成する前に、データ ソースの種類とネットワーク要件を検討してください。 この情報は、シナリオに必要な認証方法と統合ランタイムを決定するのに役立ちます。
設計に関する推奨事項
関連する コレクションにソースを登録したら、スキャンを設定するときに、この例に示されている順序を計画して従います。 このプロセス順序は、予期しないコストとやり直しを回避するのに役立ちます。
システムの組み込みの分類規則から分類要件を特定します。 または、必要に応じて、特定のカスタム分類ルールを作成します。 特定の業界、ビジネス、または地域の要件に基づいて作成します。この要件は、すぐには使用できません。
- 分類の ベスト プラクティスを参照してください。
- カスタム分類と分類ルールを作成する方法を参照してください。
スキャンを構成する前に、スキャン ルール セットを作成します。 スキャン ルール セットを作成するときは、次の点を確認します。
スキャンするデータ ソースに対して、システムの既定のスキャン 規則セットで十分かどうかを確認します。 それ以外の場合は、カスタム スキャン ルール セットを定義します。
カスタム スキャン ルール セットには、システムの既定ルールとカスタム ルールの両方を含めることができるため、スキャンするデータ資産に関連しないオプションをクリアします。
必要に応じて、不要な分類ラベルを除外するカスタム ルール セットを作成します。 たとえば、システム ルール セットには、米国だけでなく、惑星の一般的な政府コード パターンが含まれています。 データは、"ベルギーの運転免許証番号" など、他の種類のパターンと一致する場合があります。
煩雑にならないように、カスタム分類ルールを 最も重要 で 関連する ラベルに制限します。 アセットにタグ付けされたラベルが多すぎないようにします。
カスタム分類またはスキャン ルール セットを変更すると、フル スキャンがトリガーされます。 再作業やコストのかかるフル スキャンを回避するために、分類とスキャン ルール セットを適切に構成します。
注:
ストレージ アカウントをスキャンすると、Microsoft Purview は、定義されたパターンのセットを使用して、資産のグループがリソース セットを形成するかどうかを判断します。 リソース セット パターン ルールを使用して、Microsoft Purview がリソース セットとしてグループ化されている資産を検出する方法をカスタマイズまたはオーバーライドできます。 また、ルールによって、カタログ内での資産の表示方法も決定されます。 詳細については、「 リソース セット パターン ルールの作成」を参照してください。 この機能にはコストに関する考慮事項があります。 詳細については、 Microsoft Purview の価格サイトを参照してください。
登録済みデータ ソースのスキャンを設定します。 - スキャン名: 既定では、Microsoft Purview は SCAN -[A-Z][a-z][a-z] という名前付け規則を使用します。これは、実行したスキャンを特定する際には役に立ちません。 わかりやすい名前付け規則を使用します。 たとえば、スキャン 環境-source-frequency-time に DEVODS-Daily-0200 という名前を付けます。 この名前は、0200 時間の毎日のスキャンを表します。
認証: Microsoft Purview では、ソースの種類に応じて、データ ソースをスキャンするためのさまざまな認証方法が提供されます。 クラウド、オンプレミス、または Microsoft 以外のソースAzure可能性があります。 認証方法の最小特権原則に従って、次の優先順位に従います。
- Microsoft Purview MSI - マネージド サービス ID (Azure Data Lake Storage Gen2 ソースなど)
- ユーザー割り当てマネージド ID
- サービス プリンシパル
- SQL 認証 (たとえば、オンプレミスまたはAzure SQL ソースの場合)
- アカウント キーまたは基本認証 (SAP S/4HANA ソースなど)
詳細については、 資格情報を管理するためのハウツー ガイドを参照してください。
注:
ストレージ アカウントのファイアウォールを有効にする場合は、スキャンを設定するときにマネージド ID 認証方法を使用する必要があります。 新しい資格情報を設定する場合、資格情報名には 文字、数字、アンダースコア、ハイフンのみを含めることができます。
統合ランタイム
- 詳細については、「 ネットワーク アーキテクチャのベスト プラクティス」を参照してください。
- セルフホステッド統合ランタイム (SHIR) が削除されると、それに依存する進行中のスキャンは失敗します。
- SHIR を使用する場合は、スキャンするデータ ソースのメモリで十分であることを確認します。 たとえば、SAP ソースのスキャンに SHIR を使用すると、"メモリ不足エラー" と表示される場合は、次のようになります。
- SHIR マシンに十分なメモリがあることを確認します。 推奨される量は 128 GB です。
- スキャン設定で、使用可能な最大メモリを適切な値 (100 など) として設定します。
- 詳細については、「 SAP ECC Microsoft Purview のスキャンと管理」の前提条件を参照してください。
スコープ スキャン
- スキャンのスコープを設定する場合は、詳細レベルまたは親レベルで関連する資産のみを選択します。 この方法により、スキャン コストが最適であり、パフォーマンスが効率的になります。 親が完全または部分的にチェックされている場合、特定の親の下のすべての将来の資産が自動的に選択されます。
- 一部のデータ ソースの例を次に示します。
- データベースまたはData Lake Storage Gen2 Azure SQLの場合は、データ ソースの特定の部分にスキャンのスコープを設定できます。 フォルダー、サブフォルダー、コレクション、スキーマなど、リスト内の適切な項目を選択します。
- Oracle、Hive メタストア データベース、Teradata ソースの場合は、セミコロンで区切られた値またはスキーマ名パターンを使用してエクスポートするスキーマの特定のリストを指定できます。
- Google Big クエリの場合は、セミコロンで区切られた値を使用してエクスポートするデータセットの特定のリストを指定できます。
- AWS アカウント全体のスキャンを作成する場合は、スキャンする特定のバケットを選択できます。 特定の AWS S3 バケットのスキャンを作成するときに、スキャンする特定のフォルダーを選択できます。
- Erwin の場合は、Erwin モデル ロケーター文字列のセミコロン区切りのリストを指定することで、スキャンのスコープを設定できます。
- Cassandra の場合は、セミコロンで区切られた値またはキースペースの名前パターンを使用してエクスポートするキースペースの特定のリストを指定できます。
- Looker の場合、スキャンの範囲を指定するには、セミコロンで区切られた Looker プロジェクトの一覧を指定します。
- Power BI テナントの場合は、個人用ワークスペースを含めるか除外するかを指定するだけです。
- 一般に、ワイルドカード (データ レイクなど) に基づいてサポートされている パターンを無視 して、一時、構成ファイル、RDBMS システム テーブル、バックアップまたは STG テーブルを除外します。
- ドキュメントや非構造化データをスキャンする場合は、そのようなドキュメントの膨大な数をスキャンしないようにします。 スキャンでは、このようなドキュメントの最初の 20 MB が処理され、スキャン期間が長くなる可能性があります。
スキャン ルール セット
- スキャン ルール セットを選択するときは、先ほど作成した関連システムまたはカスタム スキャン ルール セットを必ず構成してください。 - カスタム ファイルの種類を作成し、それに応じて詳細を入力できます。 現在、Microsoft Purview では、カスタム区切り記号でサポートされている文字は 1 つだけです。 実際のデータで ~などのカスタム区切り記号を使用する場合は、新しいスキャン ルール セットを作成する必要があります。
スキャンの種類とスケジュール
- フル スキャンまたは増分スキャンを実行するようにスキャン プロセスを構成できます。
- 非ビジネスまたはピーク時以外の時間帯にスキャンを実行して、ソースに対する処理オーバーロードを回避します。
- 最初のスキャンはフル スキャンであり、後続のスキャンはすべて増分です。 後続のスキャンを定期的な増分スキャンとしてスケジュールできます。 サポートされている スケジュール オプションの詳細については、こちらをご覧ください。
- スキャンの頻度は、データ ソースまたはビジネス要件の変更管理スケジュールと一致している必要があります。 例:
- ソース構造が毎週変更される可能性がある場合は、スキャン頻度を同期する必要があります。変更には、追加、変更、または削除された資産内の新しい資産またはフィールドが含まれます。
- 分類ラベルまたは秘密度ラベルを週単位で更新する必要がある場合 (規制上の理由など)、スキャン頻度は毎週にする必要があります。 - パーティション ファイルがソース データ レイクに毎週追加される場合は、毎月のスキャンをスケジュールできます。 メタデータに変更がないため、毎週のスキャンをスケジュールする必要はありません。 この提案では、新しい分類シナリオがないことを前提としています。
- スキャンを実行できる最大期間は 7 日間です。メモリの問題が原因である可能性があります。 この期間は、インジェスト プロセスを除外します。 7 日後に進行状況が更新されない場合、スキャンは失敗としてマークされます。 現在、インジェスト (カタログへの) プロセスにはそのような制限はありません。
スキャンの取り消し
- 現時点では、スキャンをトリガーした後にスキャンの状態が "キューに入っている" 状態に移行した場合にのみ、スキャンをキャンセルまたは一時停止できます。
- 個々の子スキャンの取り消しはサポートされていません。
注意すべき点
- スキャンの実行後にソース システムからフィールド、列、テーブル、またはファイルを削除した場合、Microsoft Purview では、次にスケジュールされた完全スキャンまたは増分スキャンの後にのみ削除が表示されます。
- Microsoft Purview カタログから資産を削除するには、資産名の下にある [削除 ] を選択します。 このアクションでは、ソース内のオブジェクトは削除されません。 同じソースでフル スキャンを実行すると、スキャンによってカタログ内のオブジェクトが再び読み込まれます。 増分スキャンを実行した場合、削除された資産は、ソースでオブジェクトが変更されない限り、取得されません。 たとえば、列がテーブルに追加または削除された場合などです。
- 従来の Microsoft Purview ガバナンス ポータルを使用してデータ資産または基になるスキーマを 手動で 編集した後の後続のスキャンの動作を理解するには、 クラシック カタログ資産の詳細を参照してください。
- 詳細については、 資産の表示、編集、削除の方法に関するページを参照してください。