データマップでのスキャンとインジェスト

この記事では、Microsoft Purview データマップのスキャン機能とインジェスト機能の概要について説明します。これらの機能は、Microsoft Purview アカウントをソースに接続してデータマップと統合カタログを設定するため、Microsoft Purview を使用してデータの探索と管理を開始できます。

スキャンは、データソースからメタデータをキャプチャし、Microsoft Purview に移動します。
インジェストはメタデータを処理し、両方から統合カタログに格納します。
- データソーススキャン - スキャンされたメタデータが Data Map に追加されます。
- 系列接続 - 変換リソースは、ソース、出力、アクティビティに関するメタデータを Data Map に追加します。

スキャン

Microsoft Purview アカウントにデータソースを登録したら、データソースをスキャンします。スキャンプロセスはデータソースに接続し、名前、ファイルサイズ、列などの技術的なメタデータをキャプチャします。また、構造化データソースのスキーマを抽出し、スキーマに分類を適用し、データマップが Microsoft Purview ポータルに接続されている場合は秘密度ラベルを適用します。スキャンプロセスをトリガーしてすぐに実行するか、定期的に実行するようにスケジュールして Microsoft Purview アカウントを最新の状態に保つことができます。

スキャンごとに、ソース全体ではなく、必要な情報のみをスキャンするようにプロセスをカスタマイズできます。

スキャンの認証方法を選択する

Microsoft Purview は既定でセキュリティで保護されています。パスワードやシークレットは直接保存されないため、ソースの認証方法を選択する必要があります。 Microsoft Purview アカウントは複数の方法で認証できますが、データソースごとにすべての方法がサポートされているわけではありません。

マネージド ID
サービスプリンシパル
SQL 認証
Windows 認証
ロール ARN
委任された認証
コンシューマーキー
アカウントキーまたは基本認証

可能な限り、マネージド ID を使用します。これは、個々のデータソースの資格情報を格納および管理する必要がないためです。この方法により、スキャンの認証の設定とトラブルシューティングに費やす時間を大幅に短縮できます。 Microsoft Purview アカウントのマネージド ID を有効にすると、ID は Microsoft Entra ID (Entra ID) に作成され、アカウントのライフサイクルに関連付けられます。

スキャンのスコープを設定する

ソースをスキャンするときは、データソース全体をスキャンするか、スキャンする特定のエンティティ (フォルダーまたはテーブル) のみを選択できます。使用可能なオプションは、スキャンするソースによって異なります。これらのオプションは、1 回限りのスキャンとスケジュールされたスキャンの両方に対して定義できます。

たとえば、Azure SQL データベースのスキャンを作成して実行する場合、スキャンするテーブルを選択したり、データベース全体を選択したりできます。

エンティティ (フォルダーまたはテーブル) ごとに、3 つの選択状態が存在します。完全に選択され、部分的に選択され、選択されていません。次の例では、フォルダー階層で [部署 1 ] を選択した場合、 部門 1 は完全に選択されていると見なされます。同じ親 (部署 2 など) の他のエンティティが選択されていないため、会社と例である部署 1 の親エンティティは部分的に選択されていると見なされます。選択状態が異なるエンティティには、さまざまなアイコンが UI で使用されます。

スキャンページのスコープを示すスクリーンショット。

スキャンを実行すると、ソースシステムに新しい資産が追加される可能性があります。既定では、スキャンを再実行するときに親が完全または部分的に選択されている場合、特定の親の下の将来の資産が自動的に選択されます。前の例では、 部門 1 を選択してスキャンを実行した後、フォルダー Department 1 または Company の下にある新しい資産と、スキャンを再度実行すると、例が含まれます。

下の図に示すように、トグルボタンを使用すると、部分的に選択された親の下で新しい資産の自動包含を制御できます。既定では、トグルはオフになっており、部分的に選択された親の自動包含動作は無効になっています。トグルをオフにすると、 Company や example などの部分的に選択された親の下にある新しいアセットは、スキャンを再実行しても含まれません。今後のスキャンには 、部署 1 の新しい資産のみが含まれます。

切り替えボタンがオフになっているスキャンページのスコープを示すスクリーンショット。

切り替えが有効になっている場合、スキャンを再実行するときに親が完全または部分的に選択されている場合、親の下の新しいアセットが自動的に選択されます。包含動作は、トグルが導入される前と同じです。

切り替えボタンがオンになっているスキャンページのスコープを示すスクリーンショット。

注:

トグルボタンの可用性は、データソースの種類によって異なります。現時点では、Azure Blob Storage、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure Files、Azure 専用 SQL プール (旧称 SQL DW) などのソースでパブリックプレビューで使用できます。
トグルが導入される前に作成またはスケジュールされたスキャンの場合、トグルの状態は [オン] に設定され、変更できません。トグルが導入された後に作成またはスケジュールされたスキャンの場合、スキャンの保存後にトグル状態を変更することはできません。トグル状態を変更するには、新しいスキャンを作成する必要があります。
切り替えがオフになっている場合、Azure Data Lake Storage Gen 2 などのストレージの種類のソースの場合、スキャンジョブが完了した後、ソースの種類による参照エクスペリエンスが完全に使用可能になるまでに最大 4 時間かかることがあります。

既知の制限

トグルがオフの場合:

部分的に選択された親の下のファイルエンティティはスキャンされません。
親の下にあるすべての既存のエンティティが明示的に選択されている場合、親は完全に選択されていると見なされ、スキャンを再実行すると親の下の新しい資産が含まれます。

スキャンレベルをカスタマイズする

Data Map の用語では、メタデータのスコープと機能に基づいて、次の 3 つの異なるレベルのスキャンが存在します。

L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
L2 スキャン: 構造化ファイルの種類とデータベーステーブルのスキーマを抽出します
L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムとカスタム分類規則に従います

新しいスキャンを設定したり、既存のスキャンを編集したりすると、スキャンレベルの構成をサポートするデータソースをスキャンするためのスキャンレベルをカスタマイズできます。

スキャンレベルを選択するためのドロップダウンリストを示すスクリーンショット。

既定では、[自動検出] が選択されます。これは、Microsoft Purview がこのデータソースで使用できる最高のスキャンレベルを適用することを意味します。データベースAzure SQL例として、データソースが Microsoft Purview で既に分類をサポートしていたので、スキャンが実行されると"自動検出" が "レベル 3" として解決されます。スキャン実行の詳細のスキャンレベルには、適用された実際のレベルが表示されます。

適用された実際のスキャンレベルを示すスクリーンショット。

スキャンレベルを新しい機能としてカスタマイズする前に完了したスキャン履歴のすべてのスキャン実行について、スキャンレベルが設定され、[ 自動検出] として表示されます。

自動検出としてのスキャンレベルを示すスクリーンショット。

データソースでより高いスキャンレベルが使用可能になると、スキャンレベルが [自動検出] に設定されている保存済みまたはスケジュールされたスキャンによって、新しいスキャンレベルが自動的に適用されます。たとえば、特定のデータソースに対して新しい機能としての分類が有効になっている場合、このデータソースのすべての既存のスキャンで分類が自動的に適用されます。
スキャンレベルの設定は、スキャン実行ごとにスキャン監視インターフェイスに表示されます。
レベル 1 を選択すると、スキャンでは、特定のデータソースの既存のメタデータの可用性に基づいて、資産名、資産サイズ、変更されたタイムスタンプなどの基本的な技術的なメタデータのみが返されます。 SQL Database、このプロセスでは、Data Map 内のテーブルのような資産エンティティが作成されますが、テーブルスキーマは抽出されません。 (注: ソースシステムに必要なアクセス許可がある場合、ユーザーはライブビューを介してテーブルスキーマを引き続き表示できます)。
レベル 2 を選択すると、スキャンによってテーブルスキーマと基本的な技術メタデータが返されますが、データサンプリングと分類は実行されません。 Azure SQL Database の場合、テーブル資産エンティティは分類情報なしでテーブルスキーマをキャプチャします。
レベル 3 を選択すると、スキャンによってデータサンプリングと分類が実行されます。これは、新しい機能が導入される前Azure SQLデータベーススキャンの標準構成です。
スケジュールされたスキャンを低いスキャンレベルに設定し、後でより高いスキャンレベルに変更した場合、次のスキャン実行では、フルスキャンが自動的に実行され、データソースのすべての既存のデータ資産が、より高いスキャンレベルの設定によって導入されたメタデータで更新されます。たとえば、Azure SQL Database のレベル 2 でスケジュールされたスキャンセットをレベル 3 に変更すると、次のスキャン実行はフルスキャンであり、既存のすべての Azure SQL Database テーブルを更新し、分類情報を含む資産を表示します。その後、すべてのスキャンは 、レベル 3 で設定された増分スキャンとして再開されます。
スケジュールされたスキャンをより高いスキャンレベルに設定し、後でより低いスキャンレベルに変更した場合、次のスキャン実行は増分スキャンを実行し続け、データソースからのすべての新しいデータ資産には、より低いスキャンレベルの設定によって導入されたメタデータのみが含まれます。たとえば、Azure SQL Database のレベル 3 でスケジュールされたスキャンセットをレベル 2 に変更すると、次のスキャン実行は増分スキャンであり、Data Map に追加されたすべての新しい Azure SQL Database テーブルとビューアセットには分類情報がありません。既存のすべてのデータ資産は、前のスキャンセットから生成された分類情報を レベル 3 で保持します。

注:

現在、スキャンレベルのカスタマイズは、Azure SQL Database、Azure SQL Managed Instance、Azure Cosmos DB for NoSQL、Azure Database for PostgreSQL、Azure Database for MySQL、Azure Data Lake Storage Gen2、Azure Blob Storage、Azure Files、Azure Synapse Analytics、Azure 専用 SQL プール (旧称 SQL DW)、Azure Data Explorer、Dataverse、Azure Multiple (Azure サブスクリプション)、Azure Multiple (Azure リソースグループ)、Snowflake、Azure Databricks Unity Catalog
現在、この機能は、統合ランタイムとマネージド Virtual Network統合ランタイム v2 Azureでのみ使用できます。

スキャンルールセット

スキャンルールセットは、スキャンがソースのいずれかに対して実行されているときに検索する情報の種類を決定します。使用可能なルールは、スキャンするソースの種類によって異なりますが、スキャンするファイルの種類や必要な分類の種類などが含まれます。

多くのデータソースの種類には、既にシステムスキャンルールセットがありますが、独自のスキャンルールセットを作成して、organizationに合わせてスキャンを調整することもできます。

スキャンをスケジュールする

Microsoft Purview では、選択した特定の時刻に、毎日、毎週、または毎月のスキャンを選択できます。サポートされているスケジュールオプションの詳細については、こちらをご覧ください。毎日または毎週のスキャンは、開発中または頻繁に変更される構造を持つデータソースに適している場合があります。月単位のスキャンは、変更頻度の低いデータソースに適しています。スキャンするソースの管理者と協力して、ソースに対するコンピューティング需要が低い時刻を特定します。

スキャンで削除された資産を検出する方法

Microsoft Purview カタログは、スキャンの実行時にのみデータストアの状態を認識します。カタログは、ファイル、テーブル、またはコンテナーが削除されたかどうかを把握するために、最後のスキャン出力と現在のスキャン出力を比較します。たとえば、最後にAzure Data Lake Storage Gen2 アカウントをスキャンした場合、folder1 という名前のフォルダーが含まれていたとします。同じアカウントが再度スキャンされると、 folder1 が見つかりません。したがって、カタログはフォルダーが削除されていることを前提としています。

ヒント

削除されたファイルの検出方法により、削除された資産を検出して解決するために複数のスキャンが成功することが必要になる場合があります。統合カタログスコープスキャンの削除を登録していない場合は、複数のフルスキャンを試して問題を解決してください。

削除されたファイルの検出

不足しているファイルを検出するためのロジックは、同じユーザーと異なるユーザーによる複数のスキャンに対して機能します。たとえば、ユーザーがフォルダー A、B、C のData Lake Storage Gen2 データストアで 1 回限りのスキャンを実行するとします。その後、同じアカウント内の別のユーザーが、同じデータストアのフォルダー C、D、E で異なる 1 回限りのスキャンを実行します。フォルダー C が 2 回スキャンされたため、カタログによって削除の可能性がチェックされます。ただし、フォルダー A、B、D、E は 1 回だけスキャンされ、カタログは削除された資産をチェックしません。

削除されたファイルをカタログから除外するには、定期的なスキャンを実行することが重要です。カタログは、別のスキャンが実行されるまで削除された資産を検出できないため、スキャン間隔は重要です。そのため、特定のストアで月に 1 回スキャンを実行した場合、カタログは、1 か月後に次のスキャンを実行するまで、そのストア内の削除されたデータ資産を検出できません。

Data Lake Storage Gen2のような大きなデータストアを列挙する場合、情報を見逃す方法は複数あります (列挙エラーや破棄されたイベントを含む)。特定のスキャンでは、ファイルが作成または削除されたことが見逃される可能性があります。そのため、カタログが特定のファイルを削除しない限り、カタログから削除されません。この方法は、スキャンされたデータストアに存在しないファイルがまだカタログに存在する場合にエラーが発生する可能性があることを意味します。場合によっては、削除された特定の資産をキャッチする前に、データストアを 2 回または 3 回スキャンする必要がある場合があります。

注:

削除対象としてマークされた資産は、スキャンが成功した後に削除されます。削除された資産は、処理および削除される前に、カタログにしばらく表示され続ける可能性があります。
削除検出は、Microsoft Purview 内のこれらのソースに対してのみサポートされています。Azure Synapse Analytics ワークスペース、Azure Arc 対応SQL Server、Azure Blob Storage、Azure Files、cosmos DB Azure、Azure データエクスプローラー、Azure Database for MySQL、Azure Database for PostgreSQL、Azure専用 SQL プール、Azure Machine Learning、Azure SQL Database、およびマネージドインスタンスAzure SQL。これらのソースでは、データソースから資産が削除されると、後続のスキャンによって、Microsoft Purview の対応するメタデータと系列が自動的に削除されます。

摂取

インジェストは、さまざまなプロセスを通じて収集されたメタデータを Data Map に設定するプロセスです。

スキャンからのインジェスト

スキャンプロセスは、技術的なメタデータまたは分類を識別し、インジェストに送信します。インジェストは、スキャンからの入力を分析し、リソースセットパターンを適用し、使用可能な系列情報を設定してから、Data Map を自動的に読み込みます。インジェストが完了した後にのみ、資産とスキーマを検出またはキュレーションできます。スキャンが完了しても、データマップまたはカタログに資産が表示されない場合は、インジェストプロセスが完了するまで待つ必要があります。

系列接続からのインジェスト

Azure Data FactoryやAzure Synapseなどのリソースを Microsoft Purview に接続して、データソースと系列情報を Data Map に取り込むことができます。たとえば、Microsoft Purview に接続したAzure Data Factoryでコピーパイプラインが実行されると、サービスは入力ソース、アクティビティ、および出力ソースに関するメタデータを取り込みます。情報が Data Map に追加されます。

スキャンを通じてデータソースを Data Map に追加すると、アクティビティに関する系列情報が既存のソースに追加されます。データソースを Data Map にまだ追加していない場合は、系列インジェストプロセスによって、系列情報と共にルートコレクションに追加されます。

使用可能な系列接続の詳細については、系列ユーザーガイドを参照してください。

次の手順

詳細については、またはソースのスキャンに関する具体的な手順については、以下のリンクを参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-06-05