Partager via


Analyses et ingestion dans Data Map

Cet article fournit une vue d’ensemble des fonctionnalités d’analyse et d’ingestion dans Mappage de données Microsoft Purview. Ces fonctionnalités connectent votre compte Microsoft Purview à vos sources pour remplir Data Map et Catalogue unifié afin que vous puissiez commencer à explorer et à gérer vos données via Microsoft Purview.

  • L’analyse capture les métadonnées des sources de données et les apporte à Microsoft Purview.
  • L’ingestion traite les métadonnées et les stocke dans Catalogue unifié à partir des deux :
    • Analyses de source de données : les métadonnées analysées sont ajoutées à Data Map.
    • Connexions de traçabilité : les ressources de transformation ajoutent des métadonnées sur leurs sources, sorties et activités à Data Map.

Analyse

Après avoir inscrit des sources de données dans votre compte Microsoft Purview, analysez les sources de données. Le processus d’analyse se connecte à la source de données et capture les métadonnées techniques telles que les noms, la taille de fichier, les colonnes, etc. Il extrait également le schéma des sources de données structurées, applique des classifications sur les schémas et applique des étiquettes de confidentialité si votre Data Map est connecté au portail Microsoft Purview. Vous pouvez déclencher l’exécution immédiate du processus d’analyse ou planifier son exécution périodique pour maintenir à jour votre compte Microsoft Purview.

Pour chaque analyse, vous pouvez personnaliser le processus afin d’analyser uniquement les informations dont vous avez besoin, plutôt que la source entière.

Choisir une méthode d’authentification pour vos analyses

Microsoft Purview est sécurisé par défaut. Comme il ne stocke pas directement les mots de passe ou les secrets, vous devez choisir une méthode d’authentification pour vos sources. Vous pouvez authentifier votre compte Microsoft Purview de plusieurs façons, mais toutes les méthodes ne sont pas prises en charge pour chaque source de données.

  • Identité managée
  • Service Principal
  • Authentification SQL
  • Authentification Windows
  • ARN de rôle
  • Authentification déléguée
  • Clé du consommateur
  • Clé de compte ou authentification de base

Dans la mesure du possible, utilisez une identité managée, car elle élimine la nécessité de stocker et de gérer les informations d’identification pour des sources de données individuelles. Cette méthode peut réduire considérablement le temps que vous et votre équipe consacrez à la configuration et à la résolution des problèmes d’authentification pour les analyses. Lorsque vous activez une identité managée pour votre compte Microsoft Purview, une identité est créée dans Microsoft Entra ID (ID Entra) et est liée au cycle de vie de votre compte.

Définir l’étendue de votre analyse

Lors de l’analyse d’une source, vous pouvez analyser la source de données entière ou choisir uniquement des entités spécifiques (dossiers ou tables) à analyser. Les options disponibles dépendent de la source que vous analysez. Vous pouvez définir ces options pour les analyses ponctuelles et planifiées.

Par exemple, lors de la création et de l’exécution d’une analyse pour une base de données Azure SQL, vous pouvez choisir les tables à analyser ou sélectionner la base de données entière.

Pour chaque entité (dossier ou table), trois états de sélection existent : entièrement sélectionné, partiellement sélectionné et non sélectionné. Dans l’exemple suivant, si vous sélectionnez Département 1 dans la hiérarchie de dossiers, Le service 1 est considéré comme entièrement sélectionné. Les entités parentes du service 1, qui sont Société et exemple, sont considérées comme partiellement sélectionnées, car les autres entités sous le même parent (par exemple, Department 2) ne sont pas sélectionnées. Différentes icônes sont utilisées sur l’interface utilisateur pour les entités avec des états de sélection différents.

Capture d’écran montrant l’étendue de votre page d’analyse.

Après avoir exécuté l’analyse, il est probable que de nouvelles ressources soient ajoutées au système source. Par défaut, les ressources futures sous un certain parent sont automatiquement sélectionnées si le parent est entièrement ou partiellement sélectionné lorsque vous réexécutez l’analyse. Dans l’exemple précédent, une fois que vous avez sélectionné Service 1 et exécuté l’analyse, toutes les nouvelles ressources sous le dossier Département 1 ou Sous Société et l’exemple sont incluses lorsque vous réexécutez l’analyse.

Un bouton bascule, comme illustré dans l’image ci-dessous, permet aux utilisateurs de contrôler l’inclusion automatique des nouvelles ressources sous un parent partiellement sélectionné. Par défaut, le bouton bascule est désactivé et le comportement d’inclusion automatique pour un parent partiellement sélectionné est désactivé. Une fois le bouton bascule désactivé, toutes les nouvelles ressources sous des parents partiellement sélectionnés, comme Société et exemple , ne sont pas incluses lorsque vous réexécutez l’analyse ; seules les nouvelles ressources du Département 1 sont incluses dans l’analyse future.

Capture d’écran montrant l’étendue de votre page d’analyse avec le bouton bascule désactivé.

Si le bouton bascule est activé, les nouvelles ressources sous un parent sont automatiquement sélectionnées si le parent est entièrement ou partiellement sélectionné lorsque vous réexécutez l’analyse. Le comportement d’inclusion est le même qu’avant l’introduction du bouton bascule.

Capture d’écran montrant l’étendue de votre page d’analyse avec le bouton bascule activé.

Remarque

  • La disponibilité du bouton bascule dépend du type de source de données. Il est actuellement disponible en préversion publique pour les sources, notamment Stockage Blob Azure, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Azure Files et Azure pool SQL dédié (anciennement SQL DW).
  • Pour toutes les analyses créées ou planifiées avant l’introduction du bouton bascule, l’état du bouton bascule est défini sur Activé et ne peut pas être modifié. Pour toutes les analyses créées ou planifiées après l’introduction du bouton bascule, l’état du bouton bascule ne peut pas être modifié une fois l’analyse enregistrée. Vous devez créer une analyse pour modifier l’état du bouton bascule.
  • Lorsque le bouton bascule est désactivé, pour les sources de type de stockage comme Azure Data Lake Storage Gen 2, quatre heures peuvent être nécessaires avant que l’expérience parcourir par type de source ne devienne entièrement disponible une fois votre travail d’analyse terminé.

Limitations connues

Lorsque le bouton bascule est désactivé :

  • Les entités de fichier sous un parent partiellement sélectionné ne sont pas analysées.
  • Si toutes les entités existantes sous un parent sont explicitement sélectionnées, le parent est considéré comme entièrement sélectionné et toutes les nouvelles ressources sous le parent sont incluses lorsque vous réexécutez l’analyse.

Personnaliser le niveau d’analyse

Dans la terminologie data map, il existe trois niveaux d’analyse différents en fonction de l’étendue des métadonnées et des fonctionnalités :

  • Analyse L1 : extrait les informations de base et les métadonnées telles que le nom de fichier, la taille et le nom complet
  • Analyse L2 : extrait le schéma pour les types de fichiers structurés et les tables de base de données
  • Analyse L3 : extrait le schéma le cas échéant et soumet le fichier échantillonné aux règles de classification système et personnalisées

Lorsque vous configurez une nouvelle analyse ou modifiez une analyse existante, vous pouvez personnaliser le niveau d’analyse pour les sources de données d’analyse qui prennent en charge la configuration au niveau de l’analyse.

Capture d’écran montrant la liste déroulante pour la sélection des niveaux d’analyse.

Par défaut, l’option « Détection automatique » est sélectionnée, ce qui signifie que Microsoft Purview applique le niveau d’analyse le plus élevé disponible pour cette source de données. Prenons Azure SQL Base de données en tant qu’exemple, la « détection automatique » sera résolue en tant que « Niveau 3 » lorsque l’analyse est exécutée, car la source de données a déjà pris en charge la classification dans Microsoft Purview. Le niveau d’analyse dans le détail de l’exécution de l’analyse indique le niveau réel appliqué.

Capture d’écran montrant le niveau d’analyse réel appliqué.

Pour toutes les exécutions d’analyse dans l’historique d’analyse qui se sont terminées avant de personnaliser le niveau d’analyse en tant que nouvelle fonctionnalité, le niveau d’analyse est défini et affiché comme détection automatique.

Capture d’écran montrant le niveau d’analyse comme détection automatique.

  • Lorsqu’un niveau d’analyse plus élevé devient disponible pour une source de données, les analyses enregistrées ou planifiées dont le niveau d’analyse est défini sur Détection automatique appliquent automatiquement le nouveau niveau d’analyse. Par exemple, si la classification en tant que nouvelle fonctionnalité est activée pour une source de données donnée, toutes les analyses existantes sur cette source de données appliquent automatiquement la classification.

  • Le paramètre de niveau d’analyse s’affiche dans l’interface de supervision de l’analyse pour chaque exécution d’analyse.

  • Si vous sélectionnez Niveau 1, l’analyse retourne uniquement les métadonnées techniques de base, telles que le nom de la ressource, la taille de la ressource, l’horodatage modifié, etc., en fonction de la disponibilité des métadonnées existantes d’une source de données spécifique. Par SQL Database, le processus crée des entités de ressources telles que des tables dans Data Map, mais n’extrait pas le schéma de table. (Remarque : les utilisateurs peuvent toujours voir le schéma de table via la vue dynamique s’ils disposent des autorisations nécessaires dans le système source).

  • Si vous sélectionnez Niveau 2, l’analyse retourne des schémas de table et des métadonnées techniques de base, mais elle n’effectue pas l’échantillonnage et la classification des données. Pour Azure SQL Database, les entités de ressources de table capturent le schéma de table sans informations de classification.

  • Si vous sélectionnez Niveau 3, l’analyse effectue l’échantillonnage et la classification des données. Il s’agit d’une configuration standard pour Azure SQL’analyse de base de données avant l’introduction d’une nouvelle fonctionnalité au niveau de l’analyse.

  • Si vous définissez une analyse planifiée sur un niveau d’analyse inférieur et que vous la modifiez ultérieurement à un niveau d’analyse plus élevé, l’exécution d’analyse suivante effectue automatiquement une analyse complète et met à jour toutes les ressources de données existantes de la source de données avec les métadonnées introduites par un paramètre de niveau d’analyse supérieur. Par exemple, lorsque vous remplacez un jeu d’analyse planifié avec le niveau 2 sur une base de données Azure SQL sur le niveau 3, l’exécution d’analyse suivante est une analyse complète et met à jour toutes les Azure SQL table de base de données existantes et affichez les ressources avec des informations de classification. Par la suite, toutes les analyses reprennent à mesure que les analyses incrémentielles sont définies avec le niveau 3.

  • Si vous définissez une analyse planifiée sur un niveau d’analyse supérieur et que vous la modifiez ultérieurement à un niveau d’analyse inférieur, l’exécution d’analyse suivante continue d’effectuer une analyse incrémentielle et toutes les nouvelles ressources de données de la source de données ont uniquement des métadonnées introduites par un paramètre de niveau d’analyse inférieur. Par exemple, lorsque vous modifiez un jeu d’analyses planifiées de niveau 3 sur une base de données Azure SQL en niveau 2, l’exécution d’analyse suivante est une analyse incrémentielle et toutes les nouvelles ressources de table et de vue de base de données Azure SQL ajoutées dans Data Map n’ont aucune information de classification. Toutes les ressources de données existantes conservent toujours les informations de classification générées à partir du jeu d’analyse précédent avec level-3.

Remarque

  • La personnalisation du niveau d’analyse est actuellement disponible pour les sources de données suivantes : Azure SQL Database, Azure SQL Managed Instance, Azure Cosmos DB for NoSQL, Azure Database pour PostgreSQL, Azure Database pour MySQL, Azure Data Lake Storage Gen2, Stockage Blob Azure, Azure Files, Azure Synapse Analytics, Azure Pool SQL dédié (anciennement SQL DW), Azure Data Explorer, Dataverse, Azure Multiple (abonnement Azure), Azure Multiple (groupe de ressources Azure), Snowflake Azure Databricks Unity Catalog
  • Actuellement, la fonctionnalité n’est disponible que sur Azure runtime d’intégration et managed Réseau virtuel runtime d’intégration v2.

Ensemble de règles d’analyse

Un ensemble de règles d’analyse détermine les types d’informations qu’une analyse recherche lorsqu’elle s’exécute sur l’une de vos sources. Les règles disponibles dépendent du type de source que vous analysez, mais incluent des éléments tels que les types de fichiers que vous devez analyser et les types de classifications dont vous avez besoin.

De nombreux types de sources de données ont déjà des ensembles de règles d’analyse système, mais vous pouvez également créer vos propres ensembles de règles d’analyse pour adapter vos analyses à vos organization.

Planifier votre analyse

Microsoft Purview vous offre un choix d’analyse quotidienne, hebdomadaire ou mensuelle à l’heure que vous choisissez. En savoir plus sur les options de planification prises en charge. Les analyses quotidiennes ou hebdomadaires peuvent convenir aux sources de données dont les structures sont activement en cours de développement ou qui changent fréquemment. L’analyse mensuelle est plus appropriée pour les sources de données qui changent rarement. Collaborez avec l’administrateur de la source que vous souhaitez analyser pour identifier un moment où les demandes de calcul sur la source sont faibles.

Comment les analyses détectent les ressources supprimées

Un catalogue Microsoft Purview n’est conscient de l’état d’un magasin de données que lorsqu’il exécute une analyse. Pour que le catalogue sache si un fichier, une table ou un conteneur est supprimé, il compare la dernière sortie d’analyse à la sortie d’analyse actuelle. Par exemple, supposons que la dernière fois que vous avez analysé un compte Azure Data Lake Storage Gen2, il incluait un dossier nommé folder1. Lorsque le même compte est à nouveau analysé, le dossier1 est manquant. Par conséquent, le catalogue suppose que le dossier est supprimé.

Conseil

En raison de la façon dont les fichiers supprimés sont détectés, vous pouvez avoir besoin de plusieurs analyses réussies pour détecter et résoudre les ressources supprimées. Si Catalogue unifié n’inscrit pas de suppressions pour une analyse délimitée, essayez plusieurs analyses complètes pour résoudre le problème.

Détection des fichiers supprimés

La logique de détection des fichiers manquants fonctionne pour plusieurs analyses effectuées par le même utilisateur et par différents utilisateurs. Par exemple, supposons qu’un utilisateur exécute une analyse unique sur un magasin de données Data Lake Storage Gen2 sur les dossiers A, B et C. Par la suite, un autre utilisateur du même compte exécute une analyse unique différente sur les dossiers C, D et E du même magasin de données. Étant donné que le dossier C a été analysé deux fois, le catalogue le vérifie pour les suppressions possibles. Toutefois, les dossiers A, B, D et E n’ont été analysés qu’une seule fois, et le catalogue ne les case activée pas pour les ressources supprimées.

Pour conserver les fichiers supprimés hors de votre catalogue, il est important d’exécuter des analyses régulières. L’intervalle d’analyse est important, car le catalogue ne peut pas détecter les ressources supprimées tant qu’une autre analyse n’est pas exécutée. Par conséquent, si vous exécutez des analyses une fois par mois sur un magasin particulier, le catalogue ne peut pas détecter les ressources de données supprimées dans ce magasin tant que vous n’exécutez pas l’analyse suivante un mois plus tard.

Lorsque vous énumérez des magasins de données volumineux comme Data Lake Storage Gen2, il existe plusieurs façons (y compris les erreurs d’énumération et les événements supprimés) de manquer des informations. Une analyse particulière peut manquer qu’un fichier a été créé ou supprimé. Par conséquent, à moins que le catalogue soit certain qu’un fichier est supprimé, il ne le supprime pas du catalogue. Cette stratégie signifie qu’il peut y avoir des erreurs lorsqu’un fichier qui n’existe pas dans le magasin de données analysé existe toujours dans le catalogue. Dans certains cas, un magasin de données peut avoir besoin d’être analysé deux ou trois fois avant d’intercepter certaines ressources supprimées.

Remarque

  • Les ressources marquées pour suppression sont supprimées après une analyse réussie. Les ressources supprimées peuvent continuer à être visibles dans votre catalogue pendant un certain temps avant d’être traitées et supprimées.
  • La détection de suppression est prise en charge uniquement pour ces sources dans Microsoft Purview : espaces de travail Azure Synapse Analytics, Azure SQL Server avec Arc, Stockage Blob Azure, Azure Files, Azure Cosmos DB, Azure Data Explorer, Azure Database pour MySQL, Azure Database pour PostgreSQL, Azure pool SQL dédié, Azure Machine Learning, Azure SQL Database et Azure SQL Managed instance. Pour ces sources, lorsqu’une ressource est supprimée de la source de données, les analyses suivantes suppriment automatiquement les métadonnées et la traçabilité correspondantes dans Microsoft Purview.

Ingestion

L’ingestion est le processus qui remplit Data Map avec les métadonnées collectées par le biais de ses différents processus.

Remarque

Le nombre combiné d’objets enfants (entités référencées) et de contacts (propriétaire, expert) ne doit pas dépasser 20 000 entités.

Ingestion à partir d’analyses

Le processus d’analyse identifie les métadonnées techniques ou les classifications et les envoie à l’ingestion. L’ingestion analyse l’entrée de l’analyse, applique des modèles de jeu de ressources, remplit les informations de traçabilité disponibles, puis charge automatiquement Data Map. Vous pouvez découvrir ou organiser des ressources et des schémas uniquement une fois l’ingestion terminée. Si votre analyse se termine, mais que vous ne voyez pas vos ressources dans le data map ou le catalogue, vous devez attendre la fin du processus d’ingestion.

Ingestion à partir de connexions de traçabilité

Vous pouvez connecter des ressources telles que Azure Data Factory et Azure Synapse à Microsoft Purview pour importer des informations de source de données et de traçabilité dans Data Map. Par exemple, lorsqu’un pipeline de copie s’exécute dans un Azure Data Factory que vous avez connecté à Microsoft Purview, le service ingère des métadonnées sur les sources d’entrée, l’activité et les sources de sortie. Les informations sont ajoutées à Data Map.

Si vous ajoutez une source de données à Data Map par le biais d’une analyse, les informations de traçabilité de l’activité sont ajoutées à la source existante. Si vous n’avez pas encore ajouté la source de données à Data Map, le processus d’ingestion de traçabilité l’ajoute à la collection racine avec ses informations de traçabilité.

Pour plus d’informations sur les connexions de traçabilité disponibles, consultez le guide de l’utilisateur de traçabilité.

Étapes suivantes

Pour plus d’informations ou pour obtenir des instructions spécifiques sur l’analyse des sources, suivez les liens ci-dessous.