Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La gouvernance des données Microsoft Purview, avec Catalogue unifié Microsoft Purview et Mappage de données Microsoft Purview, offre une visibilité complète, une confiance des données et une innovation responsable pour aider les organisations à obtenir une plus grande valeur commerciale à l’ère de l’IA. À l’aide d’un exemple de gestion des données d’intégrité, suivez les étapes décrites dans cet article pour vous aider à comprendre comment configurer Catalogue unifié et utiliser ses fonctionnalités pour créer une pratique de gouvernance des données saine pour votre organization.
Étape 1 : Configurer vos domaines de gouvernance dans Catalogue unifié
Les domaines de gouvernance sont essentiels pour établir la responsabilité de vos données et vous aider à fédérer la gouvernance de ces données au sein de l’entreprise. Lorsque vous créez des domaines de gouvernance, commencez par le propriétaire approprié pour vous assurer que vous pouvez identifier et collaborer efficacement avec des experts pour toutes les données du patrimoine de données. Les domaines de gouvernance peuvent être de nombreux types différents à aligner sur le type de limite de données pour l’équipe qui régit ces données. Par exemple : domaines fonctionnels (finance, RH, ventes) ou domaines de données (produit, client, santé).
Configuration requise
- Vous avez besoin du rôle Administrateur de gouvernance des données pour le Catalogue unifié.
Accorder des autorisations et créer le premier domaine de gouvernance
Ouvrez le portail Microsoft Purview.
Connectez-vous au portail Microsoft Purview à l’aide des informations d’identification d’un compte d’administrateur qui a le rôle de gestion des rôles (par exemple, un administrateur Purview). Accédez à Paramètres > Rôles et étendues pour afficher et gérer.
Sélectionnez Groupes de rôles.
Dans la page Groupes de rôles pour les solutions Microsoft Purview , sélectionnez le groupe de rôles Gouvernance des données .
Dans la page Modifier le membre du groupe de rôles , sélectionnez Choisir des utilisateurs ou Choisir des groupes.
Sélectionnez la zone case activée pour tous les utilisateurs ou groupes que vous souhaitez ajouter au groupe de rôles.
Sélectionnez Sélectionner.
Dans Catalogue unifié, sélectionnez Gestion du catalogue, puis Domaines de gouvernance.
Dans la page Domaines de gouvernance , vous pouvez configurer le reste de votre catalogue pour permettre à d’autres personnes de fédérer la propriété des données, de donner aux équipes les moyens de développer leurs connaissances et d’établir la valeur métier de vos données.
- Commencez par sélectionner Nouveau domaine de gouvernance.
- Vous pouvez mettre à jour le nom de votre domaine de gouvernance. Pour ce tutoriel, nommez-le « (Tutoriel) Personal Health » et donnez-lui une description de « Les données de santé personnelles font référence à toute information liée à la santé physique ou mentale d’un individu qui est collectée et utilisée dans le secteur de la santé. Ces données peuvent inclure un large éventail de types, tels que les dossiers médicaux, les antécédents de traitement, les images diagnostiques et les résultats des tests de laboratoire. Il est souvent protégé par diverses lois et réglementations pour garantir la confidentialité et la confidentialité.
- Sélectionnez le type en tant que « domaine de données ».
- Laissez le parent vide (s’il s’agit du premier domaine de gouvernance du catalogue, il n’a pas de parent).
- Sélectionnez Créer.
- Créez maintenant deux domaines supplémentaires par vous-même. Ces domaines sont des points clés de fédération pour la collaboration et la gouvernance dans votre organization. Réfléchissez aux propriétaires de vos domaines lorsque vous implémentez Catalogue unifié.
- Vous pouvez suivre ces exemples :
- Un domaine fonctionnel d’entreprise représente les ressources et les termes hautement contrôlés qu’une entreprise entière utilise. - Les ventes sont un domaine fonctionnel que la plupart des organisations ont comme domaine enfant de Corporate.
- Commencez par sélectionner Nouveau domaine de gouvernance.
Sélectionnez le domaine de gouvernance que vous avez créé.
Sélectionnez l’onglet Rôles du domaine de gouvernance.
Par défaut, lorsque vous créez le domaine de gouvernance, vous êtes ajouté à tous les rôles dans le domaine de gouvernance. En tant que propriétaire de domaine de gouvernance, vous ajoutez les gestionnaires de données (experts métier de votre domaine) et les propriétaires de produits de données (qui savent quelles ressources de données sont les mieux à consommer).
Revenez à l’onglet Détails .
Sélectionnez Gérer les stratégies pour appliquer une stratégie au niveau du domaine. Cette stratégie s’applique à tous les produits de données du domaine. En activant l’application automatique d’une stratégie, les experts en données n’ont pas besoin d’être également des experts en stratégie.
Sous l’onglet Gérer les stratégies d’accès , cochez la case en regard de Autoriser les copies de données. En sélectionnant cette option de stratégie, il applique automatiquement une attestation qui oblige tous les utilisateurs qui demandent l’accès à vos produits de données à attester qu’ils comprennent la stratégie de copie de données pour vos données.
Sélectionnez Enregistrer les modifications pour confirmer que la stratégie est définie par le domaine de gouvernance.
Sélectionnez Publier sur le domaine de gouvernance, qui publie tous les autres concepts au sein du domaine.
Créer des termes de glossaire
L’ajout de termes de glossaire à votre domaine de gouvernance permet aux autres utilisateurs de comprendre comment l’entreprise utilise et interprète les données. Les termes du glossaire garantissent également que les insights utilisent des termes courants, et généralement vos connaissances dans votre domaine de gouvernance.
Dans la page de votre domaine de gouvernance, recherchez les termes du glossaire carte et sélectionnez Afficher tout.
Dans la page Termes du glossaire , sélectionnez Nouveau terme.
Entrez les détails : 1. Nom : « Épidémie ».
- Description : Maladie qui touche ou qui est susceptible d’affecter une grande partie de la population.
- Vous pouvez laisser le reste vide pour l’instant, mais il y a des champs à collecter : le propriétaire du terme responsable de la définition du terme pour votre entreprise, acronymes à partager communs également appelés noms du terme, enfin vous pouvez fournir des liens vers les ressources qui auraient encore plus d’informations sur le terme.
Sélectionnez Créer.
Sélectionnez Gérer les stratégies. À l’instar des stratégies au niveau du domaine, vous pouvez créer des stratégies de niveau terme qui s’appliquent partout où le terme est utilisé.
Cochez la case en regard de Approbation du gestionnaire requise. Cette stratégie applique une approbation secondaire du responsable de l’utilisateur dans Microsoft Entra ID lorsque l’accès aux produits de données est demandé.
Sélectionnez Publier pour le terme d’épidémie créé. Les termes publiés sont filtrables dans Catalogue unifié et garantissent que les autres utilisateurs qui utilisent le terme pour décrire leur produit de données peuvent voir cette description dans Catalogue unifié lors de la navigation dans le produit de données.
Créez maintenant deux termes supplémentaires. Cette fois, sélectionnez le terme « Épidémie » comme terme parent pour les termes que vous avez créés. Essayez de créer des relations entre ces termes enfants dans l’onglet associé sur l’un ou l’autre terme pour vous aider à créer le réseau de la façon dont ces termes fonctionnent ensemble pour expliquer l’intégralité d’une rubrique.
- Pandémie : flambée mondiale d’une maladie qui touche un grand nombre de personnes dans plusieurs pays/régions ou continents.
- Épidémie : épidémie à l’échelle du pays ou de la région d’une maladie qui est très contagieuse et qui touche une grande partie de la population.
Essayez de créer quelques autres termes dans d’autres domaines que vous avez créés précédemment. Si vous ne savez pas quoi ajouter, sélectionnez Obtenir des termes suggérés pour que l’IA générative en propose quelques-uns en fonction de la description et du nom du domaine que vous avez déjà fournis.
Ajouter un OKR
Ajoutez un OKR (objectif et résultat clé) pour votre domaine Personal Health afin d’aider les autres utilisateurs à comprendre la valeur métier de vos données. Cette étape crée une connexion directe entre vos données et la valeur métier qu’elles fournissent.
Sélectionnez la zone OKR dans la page du domaine de gouvernance.
Sélectionnez Nouveau OKR.
Entrez d’abord les détails de l’objectif :
- Objectif : Réduire le risque pandémique en permettant l’adoption efficace du vaccin par les patients.
- Propriétaire : entrez votre nom
- Date cible : « 2024-12-31 »
Sélectionnez Créer.
Ajoutez des résultats clés à votre objectif pour rendre les objectifs mesurables et pour surveiller la progression vers l’objectif. Sélectionnez Ajouter un résultat de clé.
Entrez les détails du résultat clé :
- Résultat clé : Veillez à ce que 80 % des groupes d’âge plus âgés (>65 ans) les plus susceptibles d’être touchés par la pandémie reçoivent une vaccination complète d’ici la fin de l’année civile 2024.
- Progression status : Sur la bonne voie
- Montant de progression : 70
- Montant de l’objectif : 80
- Montant maximal : 100
Sélectionnez Créer.
Sélectionnez Publier.
Créer des éléments de données critiques
Créez un élément de données critique (CDE) dans Personal Health pour vous assurer que les colonnes de données les plus importantes ont une définition et une compréhension cohérentes. Le CDE répond toujours aux attentes de l’entreprise quant à la façon dont ces données sont formées et stockées.
- Dans la page Domaines de gouvernance avec le domaine Intégrité personnelle sélectionné, sélectionnez la zone Éléments de données critiques .
- Sélectionnez Nouvel élément de données critiques.
- Entrez les métadonnées CDE de base :
- Nom : Groupes d’âge
- Description : Regroupement courant de l’âge des personnes utilisé pour s’assurer que les rapports analytiques nécessaires suivent une référence sur laquelle d’autres personnes peuvent dépendre et en supprimant les âges individuels pour améliorer l’anonymat des données. Le groupe d’âge est divisé en huit groupes : <2 ans, 2-4 ans, 5-11 ans, 12-17 ans, 18-24 ans, 25-49 ans, 50-64 ans, 65 ans et plus.
- Propriétaire : entrez votre nom
- Type de données attendu : Texte
- Sélectionnez Créer.
Le véritable pouvoir du CDE est qu’il mappe directement aux colonnes de données physiques dans lesquelles ces données sont stockées. Cette connexion garantit une compréhension commune et permet l’évaluation des règles et des stratégies de qualité des données à grande échelle.
Dans le CDE que vous venez de créer, sélectionnez Ajouter une colonne.
Rechercher la ressource de données Vaccin contre la Covid 19 et Tendances des cas à partir du conteneur or du lac de données
Cochez la case, et non le nom, de la ressource Vaccin contre la Covid 19 et Tendances des cas .
Conseil
Si vous sélectionnez le nom bleu de la ressource, une nouvelle fenêtre s’ouvre pour afficher les détails de la ressource.
Sélectionnez la case d’option en regard de la colonne AgeGroupVacc.
Sélectionnez Ajouter.
Sélectionnez l’onglet Qualité des données en haut du CDE que vous venez de créer pour appliquer des règles de qualité des données au CDE. Cela est similaire à la façon dont vous avez ajouté des stratégies pour les termes de glossaire et les domaines de gouvernance.
Sélectionnez Nouvelle règle
Sélectionner la correspondance du type de données
Entrer le nom de la règle : Confirmer la mise en forme du groupe d’âge
Sélectionnez Créer.
Sélectionnez Publier sur le CDE.
Ce CDE applique désormais automatiquement une règle de qualité des données à chaque produit de données qui utilise la ressource Vaccin contre la Covid 19 et Tendances de cas, que vous voyez dans la section suivante.
- Essayez de créer quelques autres CDE dans vos autres domaines. Voici quelques idées :
- Ventes : chiffre d’affaires et nom du vendeur
- Entreprise : ID de produit
Étape 2 : Configurer et inscrire vos données dans Data Map
Si vous n’avez pas de sources de données disponibles pour l’analyse, procédez comme suit pour déployer entièrement un exemple de Azure Data Lake Storage (ADLS Gen2).
Conseil
Si vous disposez déjà d’une source de données dans le même locataire que votre compte Microsoft Purview, passez à la prochaine partie de cette section pour analyser vos ressources.
Dans un patrimoine de données réel, vous trouverez de nombreux systèmes différents en cours d’utilisation pour différentes applications de données. Il existe des environnements de création de rapports tels que Fabric et Snowflake où les équipes utilisent des copies de données pour créer des solutions analytiques et alimenter leurs rapports et tableaux de bord. Il existe des systèmes de données opérationnels qui alimentent les applications utilisées par les équipes ou les clients pour effectuer des processus métier qui collectent ou ajoutent des données en fonction des décisions prises pendant le processus.
Pour créer un patrimoine de données plus réaliste, affichez de nombreuses sources de données dans le catalogue, qui peuvent couvrir l’étendue des différentes utilisations de données de n’importe quelle entreprise. Les types de données nécessaires pour alimenter un cas d’usage peuvent être très différents avec les utilisateurs professionnels qui ont besoin de rapports et de tableaux de bord, les analystes ont besoin de dimensions et de faits conformes pour créer des rapports, les scientifiques des données ou les ingénieurs données ont besoin de données sources brutes provenant directement du système qui collecte les données. Tous ces éléments et d’autres permettent à différents utilisateurs de voir l’importance de rechercher, de comprendre et d’accéder aux données au même endroit.
Pour d’autres tutoriels permettant d’ajouter des données à votre patrimoine, suivez ces guides :
- Didacticiel Fabric Lakehouse : fournit la base d’un environnement de création de rapports
- base de données Azure SQL (exemple) : fournit un exemple bien structuré d’un magasin de données opérationnel
Configuration requise
- Abonnement dans Azure : Créer votre compte Gratuit Azure aujourd’hui
- ID Microsoft Entra de votre locataire : Gouvernance Microsoft Entra ID
- Un compte Microsoft Purview et des privilèges d’administrateur (il s’agit de la valeur par défaut si vous avez créé le compte Microsoft Purview).
- Toutes les ressources ; Microsoft Purview, votre source de données et Microsoft Entra ID doivent se trouver dans le même locataire cloud.
Configurer votre patrimoine de données
A. Créer et remplir un compte de stockage
- Suivez ce guide pour créer un compte de stockage : Créer un compte de stockage pour Azure Data Lake Storage Gen2
- Créez des conteneurs pour votre nouveau lac de données :
- Accédez à la page Vue d’ensemble de votre compte de stockage.
- Sélectionnez l’onglet Conteneurs sous la section Stockage de données.
- Sélectionnez Conteneur.
- Nommez le conteneur « bronze », puis sélectionnez Créer.
- Répétez ces étapes pour créer un conteneur « gold ».
- Téléchargez des exemples de données CSV à partir de data.gov : Covid-19 Vaccination and Case Trends by Age Group, États-Unis
- Chargez le fichier CSV dans le conteneur nommé « bronze » dans le compte de stockage que vous avez créé.
- Sélectionnez le conteneur nommé « bronze », puis sélectionnez Charger.
- Parcourez l’emplacement où vous avez enregistré le fichier CSV et sélectionnez le fichier Covid-19_Vaccination_Case _Trends .
- Sélectionnez Télécharger.
B. Créer un Azure Data Factory
Cette étape montre comment les données se déplacent entre les couches d’un lac de données medallion et garantit que les données sont dans un format standardisé que les consommateurs s’attendent à utiliser. Cette étape est une condition préalable à l’exécution de la qualité des données.
Suivez ce guide pour créer un Azure Data Factory : Créer un Azure Data Factory
Copiez les données du fichier CSV dans le conteneur « bronze » vers le conteneur « gold » en tant que table au format Delta à l’aide de ce guide Azure Data Factory : Transformer des données à l’aide d’un flux de données de mappage
Ouvrez l’expérience Azure Data Factory (ADF) à partir de la Portail Azure en sélectionnant Lancer studio sous l’onglet Vue d’ensemble de la ressource ADF créée.
Sélectionnez l’onglet Auteur dans ADF Studio.
Sélectionnez la + commande, puis flux de données.
Nommez le flux de données « CSVtoDeltaC19VaxTrends ».
Sélectionnez Ajouter une source dans la zone vide.
Définissez Paramètres de la source sur :
- Nom du flux de sortie : « C19csv »
- Description : laissez vide
- Type de source : Inline
- Type de jeu de données inline : Texte délimité
- Service lié : sélectionnez le lac de données dans lequel vous avez stocké le fichier csv
Définissez Options de la source sur :
- Mode fichier : Fichier
- Chemin d’accès au fichier : /bronze/ Covid-19_Vaccination_Case _Trends
- Autoriser l’absence de fichiers trouvés : laissez décochée
- Capture des modifications de données : laissez décochée
- Type de compression : Aucun
- Encodage : par défaut (UTF-8)
- Délimiteur de colonne : Virgule (,)
- Délimiteur de ligne : par défaut(\r, \n ou\r\n)
- Caractère de guillemet : Guillemet double (")
- Caractère d’échappement : barre oblique inverse ()
- Première ligne comme en-tête : CHECKED
- Laissez le reste comme valeurs par défaut
Sélectionnez Suivant par la source créée, puis récepteur.
Créez le récepteur dans lequel le format et l’emplacement des données à stocker pour déplacer les données d’un fichier csv en « bronze » vers une table delta en « or ».
- Définissez les valeurs du récepteur (conservez tous les paramètres par défaut, sauf indication contraire).
- Type de récepteur : inline.
- Type de jeu de données inline : Delta.
- Service lié : le même lac de données que celui utilisé dans la source, car vous stockez dans un autre conteneur.
Définissez les valeurs De paramètre (conservez tous les paramètres par défaut, sauf indication contraire)
- Chemin d’accès au dossier : vaccin or/Covid19 et tendances des cas.
Entrez la valeur, car ce nom correspond à la façon dont vous souhaitez stocker les données et qu’il n’existe pas de sélection.
Sélectionnez Valider. Cette action vérifie votre flux de données et fournit des instructions pour corriger les erreurs éventuelles.
Sélectionnez Publier tout.
Sélectionnez la + commande, puis pipeline.
Nommez votre pipeline « CSV vers Delta C19 Vax Trends ».
Sélectionnez le flux de données créé dans les étapes précédentes CSV vers Delta (C19VaxTrends) et faites-le glisser-déplacer sur l’onglet du pipeline ouvert.
Sélectionnez Valider.
Sélectionnez Publier.
Sélectionnez Déboguer (utiliser le runtime d’activité) pour exécuter le pipeline.
Conseil
Si vous obtenez des erreurs pour des espaces ou des caractères inappropriés pour le format delta, ouvrez le fichier CSV téléchargé et apportez des corrections. Ensuite, re-chargez et remplacez le fichier CSV dans la zone bronze. Réexécutez ensuite votre pipeline.
Accédez à votre conteneur Gold dans le lac de données. Vous devez maintenant voir la nouvelle table Delta créée pendant le pipeline.
Analyser vos ressources
Si vous n’avez pas analysé les ressources de données dans votre Data Map, procédez comme suit pour remplir votre mappage de données.
L’analyse des sources dans votre patrimoine de données collecte automatiquement les métadonnées des ressources de données (tables, fichiers, dossiers, rapports, etc.) dans ces sources. Lorsque vous inscrivez une source de données et créez l’analyse, vous établissez la propriété technique sur les sources et les ressources qui apparaissent dans le catalogue. Vous contrôlez également qui peut accéder aux métadonnées dans Microsoft Purview. Lorsque vous inscrivez et stockez des sources et des ressources au niveau du domaine, vous les stockez au niveau le plus élevé de la hiérarchie d’accès. En règle générale, il est préférable de créer des collections dans lesquelles vous analysez les métadonnées de la ressource et d’établir la hiérarchie d’accès correcte pour ces données.
-
Fournir un accès en lecture pour l’identité managée Microsoft Purview (MSI) à votre lac de données ou à un autre magasin de données.
Conseil
Le MSI est le nom de compte du instance Microsoft Purview.
Si vous choisissez d’utiliser Fabric ou SQL, utilisez ces guides pour fournir l’accès :
Inscrire votre lac de données et analyser vos ressources
Dans Data Map, sous l’onglet Domaines, sélectionnez attributions de rôles pour le domaine (il s’agit du nom du compte Microsoft Purview) :
- Ajoutez-vous en tant qu’administrateur de source de données et conservateur de données au domaine.
- Sélectionnez l’icône de personne en regard du rôle Administrateur de source de données. 1. Recherchez votre nom tel qu’il est dans Microsoft Entra ID (vous devrez peut-être entrer votre nom complet exactement tel qu’il est dans Microsoft Entra ID).
- Sélectionnez OK.
- Répétez ces étapes pour le curateur de données.
- Ajoutez-vous en tant qu’administrateur de source de données et conservateur de données au domaine.
Inscrivez le lac de données :
- Sélectionnez l’onglet Sources de données.
- Sélectionner Inscription.
- Sélectionnez le type de stockage Azure Data Lake Storage Gen2.
Fournissez les détails pour vous connecter :
- Abonnement (facultatif)
- Nom de la source de données (il s’agit du nom de la source ADLS Gen2)
- Collection dans laquelle les métadonnées des ressources doivent être stockées (facultatif)
- Sélectionnez Inscrire.
Une fois l’inscription de la source de données terminée, vous pouvez configurer l’analyse. L’inscription signifie que Microsoft Purview est connecté à la source de données et l’a placée dans la collection appropriée pour la propriété. L’analyse lit les métadonnées de la source et remplit les ressources dans le mappage de données.
Sélectionnez la source que vous avez inscrite dans l’onglet Sources de données
Sélectionnez une nouvelle analyse et fournissez des détails :
- Utiliser le runtime d’intégration par défaut pour cette analyse
- Les informations d’identification doivent être Microsoft Purview MSI (système)
- Le niveau d’analyse est Détection automatique
- Sélectionnez une collection ou utilisez le domaine (la collection doit être la même collection ou collection enfant que celle où la source de données a été inscrite)
- Sélectionnez Continuer
Conseil
À ce stade, la connexion est testée pour valider qu’une analyse peut être effectuée. Si vous n’accordez pas l’accès lecteur MSI Microsoft Purview sur la source de données, cela échoue. Si vous n’êtes pas le propriétaire de la source de données ou si vous n’avez pas d’accès utilisateur contributeur, l’analyse échoue, car elle s’attend à ce que vous ayez l’autorisation de créer la connexion.
À présent, sélectionnez uniquement le conteneur « gold » dans lequel vous avez placé la table delta dans la section des données de construction du didacticiel. Cette sélection empêche l’analyse des autres ressources de données qui se trouvent dans votre magasin de données.
- Si vous n’avez qu’un seul case activée bleu en regard de l’or, vous pouvez laisser des vérifications à côté de tout, car il analysera la source complète et créera les ressources que nous utiliserons et bien plus encore.
- Sélectionnez Continuer
Dans l’écran Sélectionner un ensemble de règles d’analyse, vous devez utiliser l’ensemble de règles d’analyse par défaut.
Sélectionnez Continuer
Dans Définir un déclencheur d’analyse, vous définissez la fréquence de l’analyse afin que vous continuez à ajouter des ressources de données au conteneur gold du lac, il continue à remplir la carte de données. Sélectionnez Une fois.
Cliquez sur Continuer.
Sélectionnez Enregistrer et exécuter. Cette action crée une analyse qui lit les métadonnées du conteneur Gold de votre lac de données et remplit la table que nous utiliserons dans Catalogue unifié dans les sections suivantes. Si vous sélectionnez uniquement Enregistrer, il n’exécute pas l’analyse et vous ne voyez pas les ressources. Une fois l’analyse en cours d’exécution, vous voyez l’analyse que vous avez créée avec un status de dernière exécutionen file d’attente. Une fois l’analyse terminée, vos ressources sont prêtes pour la section suivante. Ce processus peut prendre quelques minutes ou heures en fonction du nombre de ressources que vous avez dans votre source.
Étape 3 : Publier vos produits de données
La création de produits de données est essentielle pour vous assurer que votre organization peut découvrir les données appropriées. Les produits de données permettent d’éviter la surgovernation des données qui ont une valeur faible ou nulle dans votre patrimoine de données, car elles n’ont pas d’utilisation ou de valeur limitée. Lorsque vos experts en données publient des produits de données, vous activez vos données les plus précieuses et créez le niveau de gouvernance approprié en fonction de cette valeur. L’organisation des ressources dont les équipes techniques ne connaissent pas l’objectif métier, ou la tentative de gouverner tout ce qui se trouve dans votre patrimoine de données complexe et croissant, entraîne un temps supplémentaire et une perte de productivité en chassant les détails des données qui pourraient ne jamais être utilisées ou simplement supprimées du patrimoine. Au lieu de cela, concentrez-vous sur les données qui ont de la valeur et que les utilisateurs doivent découvrir et créer encore plus de valeur. À mesure que les équipes utilisent davantage de données et comprennent mieux ce qui est nécessaire, vous pouvez créer des produits de données plus utiles pour répondre à ces demandes. La gouvernance peut s’adapter pour s’assurer qu’elle conserve toujours la bonne taille en fonction de la valeur et de la sensibilité des données.
Configuration requise
- Être un propriétaire de produit de données pour le domaine de gouvernance que vous utilisez.
- Avoir des ressources de données dans data map. Si ce n’est pas le cas, consultez la section 2 de ce tutoriel pour en ajouter.
- Publier un domaine de gouvernance pour publier un produit de données. Si vous n’en avez pas, consultez la section 1 de ce didacticiel pour en créer un.
Créer et publier un produit de données
Ouvrez le portail Microsoft Purview.
Sélectionnez Catalogue unifié.
Sélectionnez Gestion du catalogue , puis Domaines de gouvernance.
Dans la page Domaines de gouvernance , sélectionnez le domaine Intégrité personnelle.
Sélectionnez Accéder aux produits de données sous Concepts métier.
C’est ici que les experts en données appelés propriétaires de produits de données identifient les ressources de données destinées à être consommées par d’autres personnes dans votre organization et fournissent les informations nécessaires pour les rendre utilisables.
Sélectionnez Nouveau produit de données.
Fournissez des détails sur le produit de données : 1. Nom : « Vaccination covid-19 et tendance des cas par âge » 1. Description : « Ces données proviennent du CDC dans le cadre du département de la Santé & Human Services des États-Unis. Les données contiennent les tendances des vaccinations et des cas par groupe d’âge, au niveau national américain. Les données sont stratifiées par au moins une dose et entièrement vaccinées. Les données représentent également tous les partenaires vaccinaux, y compris les cliniques partenaires, les pharmacies de détail, les établissements de soins de longue durée, les centres de dialyse, les sites partenaires de l’Agence fédérale de gestion des urgences et de l’Administration des ressources et services de la santé, ainsi que les établissements d’entités fédérales.
- Type : Jeu de données
- Sélectionnez Suivant.
- Cas d’usage :
This data is provided for public use and is intended to help understand the trends of vaccination up take and new cases by different age groups. The ages are banded into two groups ranging from <2 years to 65+ years. Similarly the trends are provided in daily numbers that provide seven day average of new cases by age group. - Marquer comme Approuvé comme activé.
- Sélectionnez Enregistrer.
Vous disposez maintenant des métadonnées de base du produit de données. Ensuite, ajoutez des propriétés et mappez la ressource à partir de Data Map.
Sélectionnez Ajouter des ressources de données.
Vous voyez les ressources que vous avez analysées dans Data Map, y compris tous les dossiers et couches de la source de données.
Recherchez la ressource Vaccin contre la Covid19 et Tendances des cas que vous avez ajoutées au conteneur gold de votre lac de données, puis sélectionnez cet ensemble de ressources.
Sélectionnez Ajouter. Vous pouvez sélectionner autant de ressources que nécessaire pour un produit de données, mais ici, une seule est nécessaire.
Conseil
Sélectionnez Obtenir des suggestions pour que l’IA générative aide à choisir parmi les ressources de votre carte de données, puis sélectionnez vaccins covid19 et tendances de cas dans une liste réduite de résultats.
Vous pouvez maintenant voir la ressource ajoutée à votre produit de données.
Sélectionnez Ajouter un terme en regard du titre des termes du glossaire.
Sélectionnez le terme Outbreak créé précédemment, puis sélectionnez Ajouter.
Vous devez maintenant voir l’élément de données critique pour le groupe d’âge de la ressource mappée au produit de données.
Sélectionnez Ajouter OKR en regard du titre OKR.
Sélectionnez Réduire le risque pandémique en permettant l’adoption efficace du vaccin par les patients. Il s’agit de l’objectif que vous avez créé dans la première section.
Gérer les stratégies de demande d’accès aux produits de données
En haut de la page, la dernière étape avant de publier le produit de données consiste à sélectionner Gérer les stratégies. Ici, vous configurez les stratégies d’accès et le flux de travail de demande d’accès en effectuant des sélections et en fournissant les noms pour approbation. Vous pouvez également utiliser l’onglet Stratégies héritées pour afficher la stratégie de domaine de gouvernance appliquée pour l’attestation des copies de données que vous avez appliquée précédemment. Il en va de même pour l’approbation du gestionnaire requise à partir du terme du glossaire de l’épidémie.
Sélectionnez l’onglet Gérer les stratégies .
Sous Limite de temps d’accès, indiquez la durée pendant laquelle la demande d’accès est valide avant de devoir être renouvelée. Définissez cette valeur pour accorder l’accès pendant jusqu’à un an.
Dans la zone, entrez 1.
Sélectionnez les années dans la liste déroulante.
Sous Conditions d’approbation, indiquez votre nom dans la zone approbateurs. (Il nécessite le nom inscrit dans Microsoft Entra ID.)
Remarque
Vous n’avez pas besoin d’case activée’approbation du responsable, car cette stratégie est héritée du terme du glossaire de l’épidémie.
Sélectionnez Formulaire de demande d’aperçu pour voir ce que les consommateurs du catalogue affichent lors de la demande d’accès. Vous voyez l’attestation de copie des données et l’approbation du responsable requises, car elles ont été définies par le domaine de gouvernance et le terme de glossaire.
Sélectionnez Enregistrer les modifications.
Une fois que vous avez mappé les ressources de données et configuré les stratégies d’accès, vous êtes prêt à publier votre produit de données dans le catalogue.
Sélectionnez Publier sur le produit de données.
Essayez de créer un rapport sur les bénéfices dans d’autres domaines que vous avez créés précédemment
- Rapport sur les bénéfices, Type : Tableaux de bord/rapports.
- Product Master, Type : données Maser et données de référence.
Remarque
Vous pouvez ajouter de nombreuses ressources à celles-ci et voir à quoi ressemble un produit de données avec de nombreuses ressources. Ajoutez les produits de données aux termes de n’importe quel domaine pour voir comment le glossaire est utilisé pour décrire les données à l’aide d’un ensemble cohérent de termes.
Étape 4 : Exécuter la qualité des données
Maintenant qu’un produit de données est disponible dans le catalogue, l’exécution de règles de qualité des données indique à tout le monde que les données sont en bon état et prêtes à être utilisées. À mesure que vous en apprendrez davantage sur les données, ajoutez de nouvelles règles de qualité des données pour vous assurer qu’elles sont adaptées à tous les cas d’usage. S’assurer que les produits de données sont de la plus haute qualité permet de renforcer la confiance dans vos données et de faire en sorte que vous les surveillez et les améliorez. À mesure que la valeur des données augmente, vous devez surveiller et contrôler plus étroitement la qualité de ces données. Les problèmes de qualité des données mal gérées peuvent avoir des effets négatifs significatifs.
Configuration requise
- Les règles de qualité des données ne peuvent être exécutées que sur des tables au format delta dans ADLS Gen2 et Microsoft Fabric.
- L’identité managée de Microsoft Purview doit être activée pour lire la source de données, car il s’agit des seules informations d’identification prises en charge pour la qualité des données aujourd’hui.
- Vous devez avoir le rôle de gestionnaire de la qualité des données dans le domaine de gouvernance dans lequel vous exécutez la qualité des données.
- Vous devez être le propriétaire ou disposer d’un accès administrateur de l’accès utilisateur à la source de données que vous connectez à l’analyse de la qualité des données pour garantir l’autorisation de sécurité appropriée pour analyser les données.
- Vous devez disposer du rôle de gestionnaire de profil de données pour exécuter des profils sur vos données.
Créer et exécuter des règles de qualité des données
Ouvrez le portail Microsoft Purview.
Sélectionnez Catalogue unifié.
Sélectionnez l’onglet Qualité des données sous Gestion des données.
Sélectionnez le domaine d’intégrité personnel créé dans la section 1.
Sélectionnez Gérer, puis Connections. Lorsque vous créez cette connexion, vous pouvez exécuter des analyses de qualité des données sur votre source de données dans ce domaine de gouvernance. Cette étape empêche les équipes d’accéder à la connaissance des données sans autorisation appropriée.
Sélectionnez Nouveau dans l’écran des connexions pour créer une connexion : 1. Entrez le nom d’affichage « Personal Health ADLSg2 DQ ».
- Sélectionnez le type de source de Azure Data Lake Storage Gen2.
- Entrez les détails de la source de données créée dans la section 2.
Remarque
Les informations d’identification doivent être Microsoft Purview MSI (système) pour une connexion de qualité des données.
- Sélectionnez Tester la connexion.
- Une fois la connexion testée, sélectionnez Envoyer.
- Entrez les détails de la source de données créée dans la section 2.
- Sélectionnez le type de source de Azure Data Lake Storage Gen2.
Une fois la connexion établie, vous êtes prêt à exécuter des profils et à commencer à créer des règles de qualité des données. Cette étape garantit que les experts qui connaissent les règles d’entreprise et les règles appropriées s’exécutent sur les produits de données les plus importants.
- Retour à la page Qualité des données.
- Sélectionnez le domaine de gouvernance Intégrité personnelle.
- Sélectionnez le produit de données Vaccination et tendance des cas covid-19 par âge intégré à la section 3.
- Sélectionnez la ressource que vous avez ajoutée au produit de données. (Il doit être au format delta de la section 2 , sinon la qualité des données ne s’exécute pas).
- Appliquez des règles de qualité des données aux colonnes des données pour mesurer si elles répondent à vos attentes en matière de qualité :
- Sélectionnez l’onglet Règles sur la ressource sélectionnée.
- Sélectionnez Nouvelle règle.
- Sélectionnez la règle champs vides/vides.
- Entrez les détails :
- Sélectionnez La colonne AgeGroupVacc dans la liste déroulante des colonnes
- Nom de la règle : Confirmer l’existence du groupe d’âge de la vaccination
- Sélectionnez Créer.
- Sélectionnez Nouvelle règle.
- Sélectionnez Correspondance du type de données.
- Entrez les détails.
- Sélectionnez Date Colonne d’administration.
- Sélectionnez Créer.
- Sélectionnez Exécuter l’analyse de la qualité des données.
Données de profil
Créez un profil pour vos données pour afficher les statistiques générales de chaque colonne et découvrir les anomalies qui pourraient nécessiter une nouvelle règle.
- Dans Catalogue unifié, sélectionnez Gestion de l’intégrité, puis Qualité des données.
- Sélectionnez Données de profil.
- Cochez la case supérieure en regard de Nom de colonne pour profiler toutes les colonnes. Le système recommande les colonnes à profiler, et vous pouvez sélectionner des colonnes dont vous savez qu’un profilage vaut la peine d’être profilé pour empêcher les profils sur des données hautement sensibles ou des données dont vous savez qu’elles sont peu remplies.
- Sélectionnez Exécuter le profil.
Une fois l’analyse terminée, vous pouvez examiner le score de qualité des données et le profil de votre nouveau produit de données. Tous les utilisateurs du catalogue peuvent voir le score de qualité des données, de sorte que tout le monde connaît les status des données.
Créez une planification pour vos analyses de qualité des données afin de vous assurer que vous surveillez en permanence les problèmes de qualité des données. Définissez des alertes pour vous assurer que vous traitez les problèmes de qualité des données avant que les consommateurs ne soient affectés.
- Sous Gestion de l’intégrité, sélectionnez Qualité des données.
- Sélectionnez le domaine Personal Health dans lequel vous avez configuré les règles de qualité des données.
- Dans la liste déroulante Gérer , sélectionnez Analyses planifiées.
- Dans la page Analyses planifiées , sélectionnez Nouveau.
- Ajouter les détails de la vue d’ensemble
- Nom : Personal Health DQ Monthly Evaluation
- Description : analyse mensuelle des règles DQ pour l’amélioration continue.
- Sélectionnez Continuer
- Sélectionner l’étendue de l’analyse
- Cochez la case en regard de Vaccin contre le Covid-19 et Tendance des cas par âge produit de données
- Sélectionnez Continuer
- Planifiez l’analyse pour vous assurer qu’elle s’exécute le dernier jour de chaque mois
- Sélectionnez Périodique.
- Périodicité : tous les mois
- Jours du mois : Dernier
- Planifier l’heure d’analyse (UTC) : 12:00:00
- Démarrer la périodicité à (UTC) : laisser par défaut
- Sélectionnez Continuer
- Passez en revue les détails de l’analyse pour voir s’il y a des modifications que vous souhaitez apporter avant l’enregistrement.
- Sélectionnez Enregistrer. Étant donné que vous avez déclenché une analyse manuelle précédemment, vous n’avez pas besoin de déclencher une autre analyse maintenant. Si vous avez besoin d’une nouvelle analyse, sélectionnez Enregistrer et exécuter.
Configurer des alertes
Après avoir planifié les analyses de la qualité des données, vous pouvez configurer des alertes pour avertir les gestionnaires de problèmes ou lorsque des problèmes de qualité des données ou des échecs d’analyse nécessitent une attention particulière. Configurez une alerte de qualité des données pour les analyses ayant échoué et lorsque le score diminue de plus de 5 %.
- Revenez au domaine Personal Health sur la page Qualité des données .
- Dans la liste déroulante Gérer , sélectionnez Alertes.
- Sélectionnez Nouveau.
- Entrer les détails de l’alerte
- Nom d’affichage : Analyse mensuelle personal health DQ
- Description : Pour vous assurer que les seuils de DQ minimum répondent aux attentes des consommateurs.
- Cible : le score diminue de plus de
- Seuil : 5
- Désactiver les notifications : laissez non cochée
- Activer la notification pour les analyses de qualité ayant échoué : laissez coché
- Destinataire : entrez votre nom
- Cliquez sur Continuer.
Conseil
Lors de l’implémentation dans Catalogue unifié, envoyez les alertes aux gestionnaires qui peuvent informer les consommateurs du problème et collaborer avec le propriétaire technique des données pour apporter des corrections.
À la fin de cette section, vous disposez d’un Catalogue unifié fonctionnel avec la qualité des données opérationnelles pour gérer les données que vous proposez aux consommateurs de données de l’organisation. Tout est configuré pour obtenir les données les plus précieuses pour le consommateur et renforcer la confiance dans les données qu’il utilise. À mesure que la valeur des données augmente et que de nouvelles stratégies de données émergent, la section suivante montre comment gérer l’intégralité du catalogue ou approfondir la gestion des données avec master données.
Étape 5 : Gestion des données de référence
La gestion des données de référence (GPM) consiste à se conformer aux entités de données les plus importantes qui doivent être précises, uniques et appliquées de manière cohérente dans tous les domaines de l’entreprise, car les erreurs et les problèmes de ces données peuvent avoir un impact sur l’ensemble de l’entreprise. Grâce à l’un de nos partenaires MDM, vous pouvez intégrer votre choix de solutions MDM à Microsoft Purview pour permettre l’unification, la normalisation et le nettoyage des données qui permettent la création d’enregistrements et la publication de données master en tant que produits de données.
Suivez les tutoriels ici pour la solution de votre choix : Gestion des données de référence dans Microsoft Purview
Étape 6 : Gérer l’intégrité des données
Dans le domaine gestion de l’intégrité de Catalogue unifié, le bureau central des données et d’autres responsables de données peuvent évaluer la status des données par rapport aux normes de leur entreprise et gérer efficacement la progression vers leur stratégie. Pour vous assurer que tous les membres de l’entreprise savent ce qu’ils peuvent faire pour augmenter la valeur de leurs données, il est essentiel que les normes soient comprises et évolutives à l’ensemble du organization sans avoir à faire de chacun un expert en gouvernance des données. À partir d’un ensemble standard de contrôles disponibles prêts à l’emploi, chaque bureau de données peut personnaliser les contrôles pour répondre à leurs attentes et s’assurer qu’ils s’alignent sur leurs objectifs de données. L’efficacité de ces contrôles est essentielle non seulement à la mesure de ces normes, mais aussi à la garantie que les responsables des données peuvent prendre des mesures par eux-mêmes et être tenus responsables des améliorations qui affectent la valeur des données. Dans Data Estate Health, vous pouvez définir et gérer toutes ces fonctionnalités critiques.
Configuration requise
- Produits de données, termes de glossaire et autres concepts métier publiés dans Catalogue unifié. Vous pouvez suivre les sections précédentes pour créer ces concepts :
- Au moins 24 heures depuis la conservation des produits de données.
- Vous devez avoir le rôle Propriétaire de l’intégrité des données dans Catalogue unifié.
Évaluer la gouvernance de vos données avec l’intégrité du patrimoine de données
Ouvrez le portail Microsoft Purview.
Sélectionnez Catalogue unifié.
Sous Data Estate Health dans le volet de navigation gauche, sélectionnez Contrôles d’intégrité.
Sélectionnez la carotte > en regard du groupe de contrôle Création de valeur.
Lorsque vous pointez sur un titre de contrôle, sélectionnez l’icône en forme de crayon pour modifier le contrôle. En modifiant le contrôle, vous modifiez le seuil du contrôle pour définir les attentes relatives au score et définissez le score de couleur pour illustrer les étapes de progression.
Les détails vous permettent de fournir une description du contrôle et de ce qu’il signifie pour votre organization et de définir un propriétaire pour un contrôle spécifique.
Sélectionnez l’onglet Règles du contrôle pour modifier le seuil. Ce paramètre a une cible élevée et s’il n’est pas sain, il est essentiel d’effectuer un suivi.
- Hériter du groupe : bascule pour désactiver (doit devenir gris).
- Score cible : 90
- Sélectionnez Nouvelle règle.
- Définissez la zone en regard du score sur GreaterThanOrEqual
- Définissez le pourcentage sur 90
- État = Intégrité (vert)
- État de la zone Else = Critique (violet)
- Sélectionnez Enregistrer.
Sous Intégrité du patrimoine de données, sélectionnez Qualité des métadonnées.
Ici, vous pouvez modifier ou ajouter des règles qui créent les scores du contrôle. Ici, vous souhaitez modifier la gravité des actions de création de valeur pour vous assurer que tous les utilisateurs connaissent l’importance de cette action.
- Sélectionnez Configurer la gravité.
- Sélectionner le groupe de contrôle Création de valeur
- Sélectionnez le titre du contrôle d’alignement OKR métier
- Modifiez la gravité de Moyenne à Élevée, puis sélectionnez Enregistrer.
- Sélectionnez l’onglet Actions d’intégrité
- Filtre Affecté à : à votre nom
- Sélectionnez une action dans laquelle vous pouvez voir ce que le propriétaire de l’action doit faire pour s’assurer que les attentes de gouvernance sont satisfaites ou il peut affecter un nouveau propriétaire pour obtenir le meilleur expert pour fournir sa contribution. Il existe également un status qui permet aux autres utilisateurs de savoir quel travail est en cours et où d’autres actions peuvent nécessiter une hiérarchisation.
Étape 7 : Démocratisation des données
La démocratisation des données permet aux utilisateurs de rechercher et d’accéder aux données dont ils ont besoin de manière conforme. Cela garantit que les utilisateurs peuvent trouver les données dont ils ont besoin pour créer de la valeur métier. Catalogue unifié offre une expérience propre et facile pour découvrir des données. Il permet aux gestionnaires de mettre à jour et de gérer les données mises à disposition dans le catalogue à grande échelle. Dans cette section, vous allez découvrir comment les utilisateurs peuvent rechercher et demander l’accès aux données et vous assurer que les approbateurs appropriés peuvent suivre et fournir des entrées sur ces demandes d’accès.
Configuration requise
- Étapes 1 à 4 effectuées au minimum :
- Un rôle de lecteur de catalogue dans un domaine de gouvernance
Découvrir les produits de données
- Dans Catalogue unifié, sélectionnez Découverte, puis Produits de données.
- Dans la page Produits de données , utilisez la barre de recherche pour rechercher les taux de vaccination par âge.
- Ici, vous voyez les produits de données que vous avez publiés dans la section 2. Cette vue montre comment les utilisateurs voient uniquement les données qui leur sont destinées et empêchent les utilisateurs d’avoir à naviguer dans un patrimoine de données hautement technique.
- Sélectionner le produit de données Vaccination et tendance des cas covid-19 par âge
- Ici, les consommateurs peuvent voir les métadonnées que vous avez fournies et toutes les autres propriétés que vous avez configurées pendant l’installation. Le score de qualité des données est également ici afin que les consommateurs connaissent la qualité avant même d’accéder aux données.
- Sélectionnez la ressource et le consommateur peut voir toutes les colonnes disponibles dans la ressource de données.
- Sélectionnez le terme glossaire des éclosions pour que le consommateur puisse voir la description et d’autres informations sur le terme pour mieux comprendre les données.
- Une fois que le consommateur est certain qu’il souhaite utiliser ces données, il doit obtenir un accès approuvé aux données.
- Sélectionnez Demander l’accès
- Renseignez les détails du formulaire pour envoyer une demande.
- Utilisateur : laissez votre nom
- Approbation du responsable : automatiquement requise et dirigée vers le gestionnaire d’ID Microsoft Entra.
- Objectif : sélectionner un objectif
- Justification métier : surveillance okr
- Cochez la case en regard de l’attestation pour indiquer que vous comprenez les attentes en matière d’utilisation de ces données.
- Sélectionnez Envoyer.
La demande d’accès est maintenant envoyée au responsable répertorié dans Microsoft Entra ID. À partir de là, le responsable peut accéder aux demandes en ouvrant l’e-mail et en sélectionnant un lien ou en entrant dans Microsoft Purview. L’approbation et la gestion de l’accès peuvent être effectuées directement dans Microsoft Purview.
- Dans Catalogue unifié, sélectionnez Gestion des catalogues, puis Demandes.
- Sélectionnez le domaine Intégrité personnelle .
- Sélectionnez la demande que vous avez envoyée.
- À présent, les approbateurs peuvent approuver ou refuser en sélectionnant Répondre à la demande.