Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article explique comment inscrire Azure Databricks et comment s’authentifier et interagir avec Azure Databricks Unity Catalog dans Microsoft Purview. Pour plus d’informations sur Microsoft Purview, consultez l’article d’introduction.
Fonctionnalités prises en charge
Fonctionnalités d’analyse
| Extraction de métadonnées | Analyse complète | Analyse incrémentielle | Analyse délimitée |
|---|---|---|---|
| Oui | Oui | Oui | Oui |
Lors de l’analyse d’Azure Databricks Unity Catalog, Microsoft Purview prend en charge :
- Extraction de métadonnées techniques, notamment :
- Metastore
- Catalogues
- Schémas
- Tables incluant les colonnes
- Affichages, y compris les colonnes
- Extraction de la traçabilité des relations des ressources entre les tables, les vues et les colonnes pendant les exécutions du notebook.
Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité du catalogue Unity ou d’étendre l’analyse à un sous-ensemble de catalogues.
Autres fonctionnalités
Pour les classifications, les étiquettesde confidentialité, lesstratégies, la traçabilité des données et l’affichage dynamique, consultez la liste des fonctionnalités prises en charge.
Remarque
Ce connecteur apporte des métadonnées d’Azure Databricks Unity Catalog. Pour analyser les métadonnées d’étendue de l’espace de travail Azure Databricks, consultez Connecteur de metastore Hive Azure Databricks.
Limitations connues
Les noms de notebook Databricks apparaissent sous forme d’ID numériques au lieu de noms lisibles dans Microsoft Purview. Il s’agit d’une limitation Databricks, car les noms de notebook ne sont pas exposés dans la table système Unity Catalog.
Vous pouvez rencontrer des erreurs si les résultats de l’analyse d’Azure Databricks dépassent 1 Mo et si le stockage d’objets blob géré par Azure Databricks refuse l’accès au réseau public. Pour éviter cela, assurez-vous que Purview a accès à l’emplacement de stockage DBFS interne de l’espace de travail Azure Databricks analysé. Vous pouvez en savoir plus à ce sujet ici.
L’analyse incrémentielle est disponible uniquement pour la source de données Azure Databricks Unity Catalog .
L’analyse étendue est disponible pour l’option Unity Catalog sous source de données Azure Databricks uniquement.
Des points de terminaison privés managés peuvent être ajoutés pour l’option Unity Catalog sous source de données Azure Databricks uniquement.
Lorsque l’objet est supprimé de la source de données, l’analyse suivante ne supprime pas automatiquement la ressource correspondante dans Microsoft Purview.
Les informations de traçabilité ne sont pas disponibles dans les espaces de travail Azure Databricks de la région Chine. Cela est dû au fait que les tables système Azure Databricks ne sont pas prises en charge dans cette région. Microsoft Purview utilise ces tables pour extraire la traçabilité, de sorte que la traçabilité ne peut pas être récupérée dans cette région.
Pour plus d’informations sur les autres limitations liées à la traçabilité Native d’Azure Databricks, consultez la documentation Azure Databricks.
Configuration requise
Vous devez disposer d’un compte Azure avec un abonnement actif. Créez un compte gratuitement.
Vous devez disposer d’un compte Microsoft Purview actif.
Vous avez besoin d’un Key Vault Azure et d’accorder à Microsoft Purview des autorisations d’accès aux secrets.
Vous avez besoin des autorisations Administrateur de source de données et Lecteur de données pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview classique. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès dans Microsoft Purview.
Pour analyser Azure Databricks Unity Catalog, Microsoft Purview se connecte à un entrepôt SQL dans votre espace de travail et utilise le jeton d’accès personnel pour l’authentification. Vous devez disposer d’un espace de travail Azure Databricks qui est activé pour Unity Catalog et attaché au metastore que vous souhaitez analyser. Dans votre espace de travail Azure Databricks :
Créez un entrepôt SQL. Vous pouvez également utiliser l’entrepôt de démarrage créé automatiquement, le cas échéant.
Notez le chemin HTTP vers le bas. Vous pouvez le trouver dans l’espace > de travail Azure Databricks SQL Warehouses > votre entrepôt > Détails de connexion > Chemin HTTP.
Vérifiez que l’utilisateur dispose de l’autorisation Peut utiliser pour pouvoir se connecter à l’entrepôt Azure Databricks SQL. Pour plus d’informations, consultez Contrôle d’accès à l’entrepôt SQL.
L’entrepôt SQL dans Azure Databricks doit être en cours d’exécution pour établir une connexion avec Microsoft Purview avant de configurer l’analyse dans Microsoft Purview.
Pour récupérer la traçabilité à partir d’Azure Databricks à l’aide de Microsoft Purview, les prérequis suivants doivent être en place :
Activer le schéma système : le schéma système system.access doit être activé dans votre catalogue Unity. Cela est nécessaire, car les informations de traçabilité sont stockées dans des tables système et l’activation de ce schéma permet d’accéder à ces tables. En savoir plus sur la surveillance de l’utilisation des tables système.
Privilèges utilisateur : le compte d’utilisateur utilisé pour l’analyse doit disposer de privilèges SELECT sur les tables système suivantes :
system.access.table_lineage
system.access.column_lineage
Ces autorisations sont requises, car les données de traçabilité sont lues directement à partir des tables système et, sans l’accès nécessaire, Microsoft Purview ne peut pas récupérer les informations de traçabilité.
Si votre espace de travail Azure Databricks n’autorise pas l’accès à partir du réseau public ou si votre compte Microsoft Purview n’active pas l’accès à partir de tous les réseaux, vous pouvez utiliser managed Réseau virtuel Integration Runtime ou un runtime d’intégration auto-hébergé pris en charge par Kubernetes pour l’analyse. Vous pouvez configurer un point de terminaison privé managé pour Azure Databricks en fonction des besoins afin d’établir une connectivité privée.
Configuration de la source de données (Azure Databricks vs Azure Databricks Unity Catalog)
La connexion Azure Databricks Unity Catalog à Microsoft Purview peut être configurée via deux sources :
- Azure Databricks (ancienne source)
- Catalogue Unity d' Azure Databricks
Différences de fonctionnalités entre les sources de données
Les fonctionnalités du connecteur Azure Databricks Unity Catalog diffèrent en fonction de la source utilisée pour la connexion, comme indiqué dans ce tableau :
| Fonctionnalité | Ancienne source | Nouvelle source |
|---|---|---|
| Nom de la source | Azure Databricks | Catalogue Unity d' Azure Databricks |
| Prise en charge de la source | Hive & Unity Catalog | Catalogue Unity |
| Authentification : jeton d’accès personnel | Pris en charge | Pris en charge |
| Authentification : Principal du service | Non | Pris en charge |
| Authentification : Identité managée | Non | Pris en charge (identité managée par le système) |
| Integration Runtime : Azure IR | Pris en charge | Pris en charge |
| Integration Runtime : Runtime d’intégration de réseau virtuel managé | Pris en charge | Non |
| Integration Runtime : Kubernetes Self-Hosted IR | Pris en charge | Pris en charge |
| Analyse délimitée | Oui - au niveau du catalogue | Non |
| Analyse incrémentielle | Non | Oui |
| Traçabilité | Pris en charge | Pris en charge |
Quelle source dois-je utiliser ?
Vous pouvez choisir une source en fonction des besoins de votre organization ou utiliser les deux en parallèle. Le basculement d’une source à l’autre ou l’utilisation simultanée des deux n’entraîne pas de duplication des ressources dans Microsoft Purview. Cette flexibilité vous permet de commencer avec l’option qui correspond le mieux à votre configuration actuelle et de l’ajuster au fil du temps en fonction des besoins.
Authentification pour une analyse
Vous pouvez utiliser des jetons d’accès personnels, des identités managées ou des méthodes d’authentification du principal de service pour analyser Azure Databricks Unity Catalog.
Si vous utilisez une identité managée affectée par le système
Dans Azure Databricks
Accédez à Paramètres>Identité et accèsde l’administrateur> de l’espace de travail.
Sélectionnez Ajouter un principal de service.
Sélectionnez Ajouter nouveau.
Sélectionnez Microsoft Entra ID géré. Indiquez l’ID d’application pour Microsoft Purview. Vous trouverez l’ID d’application sous Détails de la ressource de compte Microsoft Purview dans Portail Azure.
Dans Microsoft Purview
- Sélectionnez l’identité managée affectée par le système sous Informations d’identification.
Pour tous les objets que vous souhaitez importer dans Microsoft Purview, l’utilisateur ou le principal de service doit avoir au moins le privilège SELECT sur les tables/vues, USE CATALOG sur le catalogue de l’objet et USE SCHEMA sur le schéma de l’objet.
Pour analyser tous les objets d’un metastore Unity Catalog, utilisez un utilisateur ou un principal de service avec le rôle d’administrateur du metastore. Pour plus d’informations, consultez Gérer les privilèges dans Unity Catalog et les privilèges et objets sécurisables Unity Catalog.
Pour la classification, l’utilisateur doit également disposer du privilège SELECT sur les tables/vues pour récupérer des exemples de données.
Inscrire
Cette section explique comment inscrire un espace de travail Azure Databricks dans Microsoft Purview à l’aide du portail de gouvernance Microsoft Purview classique.
Accédez à votre compte Microsoft Purview.
Sélectionnez Data Map dans le volet gauche.
Sélectionner Inscription.
Dans Inscrire des sources, sélectionnez Azure Databricks Unity Catalog>Continuer.
Dans l’écran Inscrire des sources (Azure Databricks Unity Catalog), procédez comme suit :
Pour Nom, entrez un nom que Microsoft Purview listera comme source de données.
Pour l’ID du metastore, fournissez l’ID de metastore pour le metastore Azure Databricks Unity Catalog que vous souhaitez analyser.
Sélectionnez une collection dans la liste.
- Sélectionnez Terminer.
Analyser
Conseil
Pour résoudre les problèmes liés à l’analyse :
- Vérifiez que vous avez suivi toutes les conditions préalables.
- Consultez notre documentation sur la résolution des problèmes d’analyse.
Procédez comme suit pour analyser Azure Databricks afin d’identifier automatiquement les ressources. Pour plus d’informations sur l’analyse en général, consultez Analyses et ingestion dans Microsoft Purview.
Accédez à Sources.
Sélectionnez l’instance Azure Databricks inscrite.
Sélectionnez + Nouvelle analyse.
Fournissez les détails suivants :
Nom : entrez un nom pour l’analyse.
Se connecter via le runtime d’intégration : choisissez le runtime d’intégration Azure par défaut, managed Réseau virtuel IR ou un runtime d’intégration auto-hébergé pris en charge par Kubernetes que vous avez créé.
Informations d’identification : sélectionnez les informations d’identification pour vous connecter à votre source de données. Veillez à :
- Sélectionnez Jeton d’accès, Identité managée ou Principal de service.
- Vous pouvez créer des informations d’identification de jeton d’accès ou de principal de service lors de l’inscription d’une analyse. Pour plus d’informations, consultez Informations d’identification pour l’authentification source dans Microsoft Purview.
URL de l’espace de travail : Indiquez l’URL de l’espace de travail que vous souhaitez analyser.
Chemin HTTP : Spécifiez le chemin HTTP de Databricks SQL Warehouse auquel Microsoft Purview se connectera et effectuez l’analyse . par exemple,
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx. Vous pouvez le trouver dans l’espace de travail Azure Databricks -> SQL Warehouses -> votre entrepôt - Détails de> la connexion -> Chemin HTTP.Extraction de traçabilité : Basculez l’extraction de traçabilité sur Activé pour extraire la traçabilité des ressources analysées.
Sélectionnez Tester la connexion pour valider les paramètres.
Cliquez sur Continuer.
Pour Déclencheur d’analyse, choisissez de configurer une planification ou d’exécuter l’analyse une seule fois.
Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.
Une fois l’analyse terminée, découvrez comment parcourir et rechercher des ressources.
Afficher vos analyses et exécutions d’analyse
Pour afficher les analyses existantes :
- Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
- Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
- Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
- Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.
Gérer vos analyses
Pour modifier, annuler ou supprimer une analyse :
Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :
- Modifiez l’analyse en sélectionnant Modifier l’analyse.
- Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
- Supprimez votre analyse en sélectionnant Supprimer l’analyse.
Remarque
- La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.
Parcourir et rechercher des ressources
Après avoir analysé votre Azure Databricks, vous pouvez parcourir Catalogue unifié ou rechercher Catalogue unifié pour afficher les détails et la traçabilité des ressources.
Lorsque vous naviguez par type de source, vous voyez deux entrées pour Azure Databricks Unity Catalog et Azure Databricks respectivement. Le premier contient les artefacts Unity Catalog, y compris le metastore et ses catalogues/schémas/tables/vues, tandis que le second contient les artefacts de l’espace de travail.
À partir de la ressource de l’espace de travail Azure Databricks, vous pouvez trouver le catalogue Unity associé sous l’onglet Propriétés. L’option inversée s’applique également.
Traçabilité
Lorsque vous parcourez une ressource Azure Databricks particulière, vous pouvez voir les notebooks qui ont capturé la traçabilité.
Accédez à l’onglet Ressource -> Traçabilité. Vous pouvez voir la traçabilité sur la ressource ou la ressource de table/vue Azure Databricks Notebook, le cas échéant.
Scénarios de traçabilité pris en charge
La traçabilité est prise en charge pour les tables et les vues lorsqu’elles sont connectées via des notebooks Databricks dans Unity Catalog.
La traçabilité s’affiche uniquement pour les objets analysés via Microsoft Purview. Toutes les ressources associées doivent être analysées pour former un graphique de traçabilité complet. Vérifiez que tous les espaces de travail Databricks avec des notebooks appropriés sont inclus dans les analyses Microsoft Purview.
Limitations de traçabilité
- Lorsque les notebooks sont exécutés via des travaux Databricks, la traçabilité au niveau des colonnes peut ne pas être capturée.
- Microsoft Purview affiche uniquement une traçabilité partielle si tous les objets impliqués dans un flux de données ne sont pas analysés. Par exemple, si un notebook dans l’espace de travail A écrit des données dans une table de l’espace de travail B, mais que seul l’espace de travail A est analysé par Microsoft Purview, la traçabilité affiche le bloc-notes, mais pas la table de destination, ce qui entraîne une traçabilité incomplète.
- Si un notebook est déclenché par un service externe (par exemple, Azure Data Factory pipeline [ADF] appelant un travail Databricks), la traçabilité ne reflète pas cette dépendance dans Microsoft Purview.
- Dans ce cas, la traçabilité entre les jeux de données ADF et les ressources Databricks n’est pas affichée.
- Seule la traçabilité générée dans les notebooks Databricks est capturée.
Scénario de traçabilité manquante
L’extraction de traçabilité est passive ; Seul ce qui est journalisé et accessible via la table système Unity Catalog est ingéré par Microsoft Purview.
- Reportez-vous aux sections ci-dessus pour vous assurer que votre scénario de traçabilité est pris en charge.
- Vérifiez que les tables système de traçabilité Unity Catalog (
system.access.table_lineage,system.access.column_lineage) sont remplies correctement. - Déclenchez un ticket de support si vous rencontrez toujours des problèmes.
Reportez-vous à la section Fonctionnalités prises en charge sur les scénarios de traçabilité Databricks Unity Catalog pris en charge. Pour plus d’informations sur la traçabilité en général, consultez le guide de l’utilisateur sur la traçabilité et la traçabilité des données.
Forum aux questions (FAQ)
La traçabilité au niveau des colonnes d’Unity Catalog est-elle capturée par Microsoft Purview ?
Microsoft Purview peut capturer la traçabilité au niveau de la table/vue Unity Catalog et au niveau de la colonne.
Je ne vois pas la traçabilité au niveau de la colonne, que se passe-t-il ?
La traçabilité au niveau des colonnes est générée lorsque votre notebook est exécuté à partir d’un cluster et n’est pas généré par le biais d’un entrepôt SQL.
Je reçois une erreur de délai d’expiration, que dois-je faire ?
Lorsqu’il y a un grand volume de ressources dans votre espace de travail, votre analyse peut échouer. Dans ce cas, vous pouvez limiter votre analyse à quelques catalogues à la fois, ce qui réduira le volume de ressources par analyse et permettra à vos analyses de se terminer.
Je viens d’exécuter mon notebook, mais Microsoft Purview n’a pas récupéré la traçabilité. Que se passe-t-il?
Databricks peut prendre quelques minutes pour mettre à jour les informations de traçabilité dans ses tables système après l’exécution de votre notebook. Microsoft Purview sera en mesure d’extraire la traçabilité une fois les tables système mises à jour.
Étapes suivantes
Maintenant que votre source est inscrite, utilisez les guides suivants pour en savoir plus sur Microsoft Purview et vos données :