Partager via


Meilleures pratiques en matière d’analyse data map

Mappage de données Microsoft Purview prend en charge l’analyse automatisée des sources de données locales, multiclouds et SaaS (Software as a Service).

Lorsque vous exécutez une analyse, le processus commence à ingérer les métadonnées des sources de données inscrites. À la fin du processus d’analyse et de curation, vous obtenez des métadonnées organisées qui incluent des métadonnées techniques. Ces métadonnées peuvent inclure des noms de ressources de données tels que des noms de table ou de fichiers, la taille de fichier, les colonnes et la traçabilité des données. Pour les sources de données structurées, les détails du schéma sont également capturés. Un système de gestion de base de données relationnelle est un exemple de ce type de source.

Le processus de curation applique des étiquettes de classification automatisées sur les attributs de schéma en fonction de l’ensemble de règles d’analyse que vous configurez. Si votre compte Microsoft Purview est connecté au portail Microsoft Purview, des étiquettes de confidentialité sont appliquées.

Importante

Si vous avez des stratégies Azure qui empêchent les mises à jour des comptes de stockage, ces stratégies provoquent des erreurs pour le processus d’analyse Microsoft Purview. Consultez Créer une exclusion de stratégie Azure pour Microsoft Purview afin de créer une exception pour les comptes Microsoft Purview.

Pourquoi avez-vous besoin de bonnes pratiques pour gérer les sources de données ?

Les bonnes pratiques vous aident à :

  • Optimiser les coûts.
  • Créez l’excellence opérationnelle.
  • Améliorer la conformité de la sécurité.
  • Gagnez en efficacité en matière de performances.

Inscrire une source et établir une connexion

Les considérations et recommandations de conception suivantes vous aident à inscrire une source et à établir une connexion.

Considérations relatives à la conception

  • Utilisez des regroupements pour créer la hiérarchie qui s’aligne sur la stratégie de l’organization, comme l’emplacement géographique, la fonction métier ou la source de données. La hiérarchie définit les sources de données à inscrire et à analyser.
  • Par défaut, vous ne pouvez pas inscrire des sources de données plusieurs fois dans le même compte Microsoft Purview. Cette architecture vous permet d’éviter le risque d’affecter un contrôle d’accès différent à la même source de données.

Recommandations de conception

  • Si plusieurs équipes consomment les métadonnées de la même source de données, inscrivez et gérez la source de données dans une collection parente. Ensuite, créez des analyses correspondantes sous chaque sous-collection. De cette façon, les ressources pertinentes apparaissent sous chaque collection enfant. La vue cartographique regroupe les sources sans parents dans une zone en pointillés. Aucune flèche ne les lie aux parents.

    Capture d’écran montrant Microsoft Purview avec une source de données inscrite au niveau de la collection parente.

  • Utilisez l’option Azure Plusieurs si vous devez inscrire plusieurs sources, telles que des abonnements Azure ou des groupes de ressources, dans le cloud. Pour plus d’informations, consultez la documentation suivante :

  • Après avoir inscrit une source de données, vous pouvez analyser la même source plusieurs fois. Différentes équipes ou unités commerciales peuvent utiliser la même source de différentes façons.

Pour plus d’informations sur la définition d’une hiérarchie pour l’inscription de sources de données, consultez Bonnes pratiques sur l’architecture des collections.

Analyse

Les considérations et recommandations de conception suivantes sont organisées en fonction des étapes clés impliquées dans le processus d’analyse.

Considérations relatives à la conception

  • Après avoir inscrit la source de données, configurez une analyse pour gérer l’analyse et la curation automatisées et sécurisées des métadonnées.
  • La configuration de l’analyse inclut la configuration du nom de l’analyse, de l’étendue de l’analyse, du runtime d’intégration, de la fréquence du déclencheur d’analyse, de l’ensemble de règles d’analyse et du jeu de ressources de manière unique pour chaque source de données par fréquence d’analyse.
  • Avant de créer des informations d’identification, tenez compte de vos types de sources de données et de vos exigences de mise en réseau. Ces informations vous aident à déterminer la méthode d’authentification et le runtime d’intégration dont vous avez besoin pour votre scénario.

Recommandations de conception

Après avoir inscrit votre source dans la collection appropriée, planifiez et suivez l’ordre indiqué dans cet exemple lorsque vous configurez l’analyse. Cet ordre de processus vous permet d’éviter des coûts inattendus et de retravailler.

Capture d’écran montrant l’ordre à suivre lors de la préparation d’une analyse.

  1. Identifiez vos exigences de classification à partir des règles de classification intégrées du système. Vous pouvez également créer des règles de classification personnalisées spécifiques, si nécessaire. Basez-les sur des exigences spécifiques du secteur, de l’entreprise ou de la région, qui ne sont pas disponibles prêtes à l’emploi :

  2. Créez des ensembles de règles d’analyse avant de configurer l’analyse. Lorsque vous créez l’ensemble de règles d’analyse, vérifiez les points suivants :

    • Vérifiez si l’ensemble de règles d’analyse par défaut du système est suffisant pour la source de données que vous analysez. Sinon, définissez votre ensemble de règles d’analyse personnalisées.

    • L’ensemble de règles d’analyse personnalisée peut inclure des règles système par défaut et personnalisées. Par conséquent, effacez les options qui ne sont pas pertinentes pour les ressources de données que vous analysez.

    • Si nécessaire, créez un ensemble de règles personnalisé pour exclure les étiquettes de classification indésirables. Par exemple, l’ensemble de règles système contient des modèles de code gouvernementaux génériques pour la planète, pas seulement les États-Unis. Vos données peuvent correspondre au modèle d’un autre type, tel que « Numéro de permis de conduire en Belgique ».

    • Limitez les règles de classification personnalisées aux étiquettes les plus importantes et les plus pertinentes pour éviter tout encombrement. Vous ne souhaitez pas que trop d’étiquettes soient étiquetées sur la ressource.

    • Si vous modifiez la classification personnalisée ou l’ensemble de règles d’analyse, une analyse complète est déclenchée. Configurez l’ensemble de règles de classification et d’analyse de manière appropriée pour éviter de retravailler et d’effectuer des analyses complètes coûteuses.

      Remarque

      Lorsque vous analysez un compte de stockage, Microsoft Purview utilise un ensemble de modèles définis pour déterminer si un groupe de ressources forme un jeu de ressources. Vous pouvez utiliser des règles de modèle d’ensemble de ressources pour personnaliser ou remplacer la façon dont Microsoft Purview détecte les ressources qui sont regroupées en tant que jeux de ressources. Les règles déterminent également la façon dont les ressources sont affichées dans le catalogue. Pour plus d’informations, consultez Créer des règles de modèle d’ensemble de ressources. Cette fonctionnalité a des considérations de coût. Pour plus d’informations, consultez le site de tarification Microsoft Purview.

  3. Configurez une analyse pour les sources de données inscrites. - Nom de l’analyse : par défaut, Microsoft Purview utilise la convention de nommage SCAN-[A-Z][a-z][a-z], ce qui n’est pas utile lorsque vous essayez d’identifier une analyse que vous avez exécutée. Utilisez une convention de nommage explicite. Par instance, vous pouvez nommer l’environnement d’analyse-source-frequency-time en tant que DEVODS-Daily-0200. Ce nom représente une analyse quotidienne à 0200 heures.

    • Authentification : Microsoft Purview offre différentes méthodes d’authentification pour l’analyse des sources de données, en fonction du type de source. Il peut s’agir Azure sources cloud ou locales ou non-Microsoft. Suivez le principe de privilège minimum pour la méthode d’authentification dans cet ordre de préférence :

      • Microsoft Purview MSI - Managed Service Identity (par exemple, pour les sources Azure Data Lake Storage Gen2)
      • Identité managée affectée par l’utilisateur
      • Principal de service
      • Authentification SQL (par exemple, pour les sources locales ou Azure SQL)
      • Clé de compte ou authentification de base (par exemple, pour les sources SAP S/4HANA)

      Pour plus d’informations, consultez le guide pratique pour gérer les informations d’identification.

      Remarque

      Si vous activez un pare-feu pour le compte de stockage, vous devez utiliser la méthode d’authentification d’identité managée lorsque vous configurez une analyse. Lorsque vous configurez de nouvelles informations d’identification, le nom des informations d’identification ne peut contenir que des lettres, des chiffres, des traits de soulignement et des traits d’union.

    • Runtime d’intégration

      • Pour plus d’informations, consultez Bonnes pratiques en matière d’architecture réseau.
      • Si le runtime d’intégration auto-hébergé (SHIR) est supprimé, toutes les analyses en cours qui s’appuient sur celui-ci échouent.
      • Lorsque vous utilisez SHIR, assurez-vous que la mémoire est suffisante pour la source de données que vous analysez. Par exemple, lorsque vous utilisez SHIR pour analyser une source SAP, si vous voyez « Erreur de mémoire insuffisante » :
        • Vérifiez que la machine SHIR dispose de suffisamment de mémoire. La quantité recommandée est de 128 Go.
        • Dans le paramètre d’analyse, définissez la mémoire maximale disponible comme valeur appropriée, par exemple 100.
        • Pour plus d’informations, consultez les conditions préalables dans Analyser et gérer SAP ECC Microsoft Purview.
    • Analyse de l’étendue

      • Lorsque vous configurez l’étendue de l’analyse, sélectionnez uniquement les ressources pertinentes au niveau granulaire ou parent. Cette pratique garantit que le coût de l’analyse est optimal et que les performances sont efficaces. Toutes les ressources futures sous un certain parent sont automatiquement sélectionnées si le parent est entièrement ou partiellement vérifié.
      • Voici quelques exemples pour certaines sources de données :
        • Pour Azure SQL base de données ou Data Lake Storage Gen2, vous pouvez limiter votre analyse à des parties spécifiques de la source de données. Sélectionnez les éléments appropriés dans la liste, tels que les dossiers, les sous-dossiers, les collections ou les schémas.
        • Pour les sources Oracle, Hive Metastore Database et Teradata, vous pouvez spécifier une liste spécifique de schémas à exporter via des valeurs séparées par des points-virgules ou des modèles de nom de schéma.
        • Pour la requête Google Big, vous pouvez spécifier une liste spécifique de jeux de données à exporter via des valeurs séparées par des points-virgules.
        • Lorsque vous créez une analyse pour un compte AWS entier, vous pouvez sélectionner des compartiments spécifiques à analyser. Lorsque vous créez une analyse pour un compartiment AWS S3 spécifique, vous pouvez sélectionner des dossiers spécifiques à analyser.
        • Pour Erwin, vous pouvez définir l’étendue de votre analyse en fournissant une liste séparée par des points-virgules de chaînes de localisateur de modèle Erwin.
        • Pour Cassandra, vous pouvez spécifier une liste spécifique d’espaces clés à exporter via des valeurs séparées par des points-virgules ou des modèles de nom d’espaces clés.
        • Pour Looker, vous pouvez définir l’étendue de votre analyse en fournissant une liste de projets Looker séparés par des points-virgules.
        • Pour le locataire Power BI, vous pouvez uniquement spécifier s’il faut inclure ou exclure l’espace de travail personnel.
      • En règle générale, utilisez ignorer les modèles pour lesquels ils sont pris en charge, en fonction des caractères génériques (par exemple, pour les lacs de données) pour exclure les fichiers temporaires, les fichiers de configuration, les tables système SGBDR ou les tables de sauvegarde ou STG.
      • Lorsque vous analysez des documents ou des données non structurées, évitez d’analyser un grand nombre de ces documents. L’analyse traite les 20 premiers Mo de ces documents et peut entraîner une plus longue durée d’analyse.
    • Ensemble de règles d’analyse

      • Lorsque vous sélectionnez l’ensemble de règles d’analyse, veillez à configurer le système ou l’ensemble de règles d’analyse personnalisé approprié que vous avez créé précédemment. - Vous pouvez créer des types de fichiers personnalisés et renseigner les détails en conséquence. Actuellement, Microsoft Purview ne prend en charge qu’un seul caractère dans le délimiteur personnalisé. Si vous utilisez des délimiteurs personnalisés, tels que ~, dans vos données réelles, vous devez créer un nouvel ensemble de règles d’analyse.

      Capture d’écran montrant la sélection de l’ensemble de règles d’analyse lors de la configuration de l’analyse.

    • Type d’analyse et planification

      • Vous pouvez configurer le processus d’analyse pour exécuter des analyses complètes ou incrémentielles.
      • Exécutez les analyses pendant les heures creuses ou hors activité pour éviter toute surcharge de traitement sur la source.
      • L’analyse initiale est une analyse complète, et chaque analyse suivante est incrémentielle. Vous pouvez planifier les analyses suivantes sous forme d’analyses incrémentielles périodiques. En savoir plus sur les options de planification prises en charge.
      • La fréquence des analyses doit s’aligner sur le calendrier de gestion des modifications de la source de données ou des exigences métier. Par exemple :
        • Si la structure source peut changer chaque semaine, la fréquence d’analyse doit être synchronisée. Les modifications incluent les nouvelles ressources ou les champs d’une ressource qui sont ajoutés, modifiés ou supprimés.
        • Si la classification ou les étiquettes de confidentialité doivent être à jour sur une base hebdomadaire, peut-être pour des raisons réglementaires, la fréquence d’analyse doit être hebdomadaire. - Si des fichiers de partition sont ajoutés chaque semaine dans un lac de données source, vous pouvez planifier des analyses mensuelles. Vous n’avez pas besoin de planifier des analyses hebdomadaires, car les métadonnées ne sont pas modifiées. Cette suggestion suppose qu’il n’existe aucun nouveau scénario de classification.
        • La durée maximale d’exécution de l’analyse est de sept jours, probablement en raison de problèmes de mémoire. Cette période exclut le processus d’ingestion. Si la progression n’est pas mise à jour après sept jours, l’analyse est marquée comme ayant échoué. Le processus d’ingestion (dans le catalogue) n’a actuellement pas de limitation de ce type.
    • Annulation des analyses

      • Actuellement, vous pouvez annuler ou suspendre les analyses uniquement si la status de l’analyse passe à un état « En cours » à partir de « Mis en file d’attente » après avoir déclenché l’analyse.
      • L’annulation d’une analyse enfant individuelle n’est pas prise en charge.

Points à noter

  • Si vous supprimez un champ, une colonne, une table ou un fichier du système source après l’exécution d’une analyse, Microsoft Purview n’affiche la suppression qu’après la prochaine analyse complète ou incrémentielle planifiée.
  • Vous pouvez supprimer une ressource d’un catalogue Microsoft Purview en sélectionnant Supprimer sous le nom de la ressource. Cette action ne supprime pas l’objet dans la source. Si vous exécutez une analyse complète sur la même source, l’analyse réinscrit l’objet dans le catalogue. Si vous exécutez une analyse incrémentielle, la ressource supprimée n’est pas récupérée, sauf si l’objet est modifié à la source. Par exemple, si une colonne est ajoutée ou supprimée de la table.
  • Pour comprendre le comportement des analyses suivantes après la modification manuelle d’une ressource de données ou d’un schéma sous-jacent via le portail de gouvernance Microsoft Purview classique, consultez les détails des ressources du catalogue classique.
  • Pour plus d’informations, consultez comment afficher, modifier et supprimer des ressources.

Étapes suivantes

Gérer les sources de données