Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La gouvernance des données est une infrastructure de stratégies, de processus, de rôles et de contrôles techniques qui garantit que les données de votre organisation sont sécurisées, fiables et utilisées de manière responsable tout au long de son cycle de vie. Une gouvernance efficace des données vous permet de maintenir la qualité des données, de protéger les informations sensibles, de répondre aux exigences réglementaires et d’optimiser la valeur de vos ressources de données.
Les principaux composants de la gouvernance des données sont les suivants :
- Contrôle d’accès et sécurité : implémentation d’autorisations affinées et de mesures de sécurité pour protéger les données contre les accès non autorisés tout en activant l’utilisation appropriée.
- Traçabilité et observabilité des données : suivi des flux de données et des transformations pour comprendre les origines des données, les dépendances et les modèles d’utilisation.
- Gestion de la qualité des données : garantir que les données sont précises, complètes, cohérentes et fiables pour la prise de décision et l’analytique.
- Gestion des métadonnées : capture et gestion des informations sur les ressources de données afin d’améliorer la détectabilité et la compréhension.
- Application de la conformité : répondre aux exigences réglementaires et aux stratégies organisationnelles pour la confidentialité, la rétention et l’utilisation des données.
Cette page se concentre sur la gouvernance des données à l’aide de Unity Catalog dans Azure Databricks. Les rubriques de sécurité connexes, telles que l’authentification, la configuration réseau, le chiffrement des données et la conformité à la confidentialité, sont abordées dans la vue d’ensemblede la sécurité et de la conformité.
Modèle de gouvernance des données du catalogue Unity
Unity Catalog est un catalogue de données centralisé qui fournit une gouvernance pour les données structurées et non structurées dans plusieurs formats. Il offre un contrôle d’accès précis et une gouvernance des ressources IA telles que des modèles Machine Learning. Unity Catalog est open source et prend en charge plusieurs plateformes. Il est profondément intégré à Azure Databricks.
Unity Catalog est une solution complète de gouvernance des données qui fournit les éléments suivants :
- Unification des données : vue unifiée de toutes les ressources de données et d’IA, sur les plateformes, réduisant ainsi la duplication et l’expansion.
- Contrôle d’accès aux données : outils permettant de s’assurer que les données sont accessibles, mais uniquement pour les utilisateurs appropriés.
- Détectabilité des données : outils qui facilitent la recherche des données dont vous avez besoin.
- Qualité des données : outils pour garantir que les données exactes, complètes, cohérentes et sécurisées tout au long de son cycle de vie.
- Collaboration et partage des données : outils permettant de partager des données de manière sécurisée non seulement au sein de votre organisation, mais au-delà des limites de l’organisation et de la plateforme.
- Audit : outils qui capturent qui utilise les données et comment.
Cette page explique comment votre organisation peut répondre à ces besoins à l’aide de Unity Catalog dans Azure Databricks.
Contrôle d’accès aux données
Pour vous assurer que les utilisateurs accèdent uniquement aux données qu’ils doivent, Unity Catalog fournit un modèle de privilège hiérarchique qui vous permet d’accorder aux utilisateurs, aux groupes et aux principaux de service l’accès aux ressources de données et d’IA du niveau du compte jusqu’aux lignes et colonnes de table. Vous pouvez contrôler l’accès aux ressources stockées dans le stockage de catalogue Unity dédié ou stockées dans d’autres plateformes, telles que le stockage cloud ou les systèmes de base de données : la clé est que Unity Catalog donne à vos utilisateurs un accès potentiel à toutes vos données, quel que soit l’emplacement où il se trouve, à partir d’Azure Databricks, et que Unity Catalog contrôle leur accès et effectue le suivi de leur utilisation des données.
| Tâche | Descriptif |
|---|---|
| Gérer les privilèges | Découvrez les objets sécurisables que Unity Catalog gère et comment contrôler l’accès à ces objets. |
| Gérer le contrôle d’accès en fonction des attributs (ABAC) | Découvrez comment contrôler l’accès aux données à l’aide d’ABAC dans le catalogue Unity. |
| Gérer les identités | Découvrez comment gérer les identités dans le contexte du catalogue Unity. |
| Contrôle d’accès affiné | Découvrez comment contrôler l’accès aux données de table à l’aide de filtres de lignes et de masques de colonne. |
| Gérer l’accès aux plateformes de stockage et de données externes | Découvrez comment contrôler l’accès au stockage cloud, aux plateformes de données externes et aux services externes non-données à l’aide du catalogue Unity. |
| Gérer l’accès à partir de plateformes externes | Découvrez comment Unity Catalog peut gérer l’accès à vos données à partir de plateformes externes qui utilisent les API du catalogue Apache Iceberg ou unity open source. |
Détectabilité des données
Azure Databricks et Unity Catalog fournissent les outils suivants pour aider les utilisateurs à trouver les données dont ils ont besoin :
| Caractéristique | Descriptif |
|---|---|
| Explorateur de catalogues | Parcourez et recherchez des données et des ressources IA à l’aide de noms et de métadonnées de ressources, tels que des commentaires et des balises. |
| Navigateurs de catalogue | Recherchez des données et des ressources IA à l’aide de navigateurs intégrés aux éditeurs de requêtes SQL et notebook. Veuillez consulter la section Naviguer dans le notebook Databricks et l’éditeur de fichiers et Rédiger des requêtes et explorer les données dans le nouvel éditeur SQL. |
| Commentaires générés par l’IA | Générez automatiquement la documentation des ressources de données et d’IA pour faciliter la découverte. |
| Aperçus des tables | Utilisez une interface utilisateur intégrée à l’Explorateur de catalogues pour afficher les utilisateurs et requêtes les plus fréquents de n’importe quelle table dans le catalogue Unity. |
| Lignage des données | Capturez et visualisez la façon dont les données transitent par votre organisation. Pour connaître la traçabilité des fonctionnalités et des modèles, consultez Gouvernance et traçabilité des fonctionnalités. |
| Diagrammes de relation d’entité (ERD) | Afficher les relations pour les tables qui ont des clés étrangères définies. |
Consultez également Découvrir les données.
Surveillance de la qualité des données
Les outils permettant de garantir la qualité des données et l’intégrité des données sont profondément intégrés à Delta Lake, Apache Spark et Azure Databricks. Vous pouvez en savoir plus sur ceux-ci dans la documentation Azure Databricks.
Unity Catalog ajoute les éléments suivants :
| Caractéristique | Descriptif |
|---|---|
| Surveillance de la qualité des données | La surveillance de la qualité des données vous permet de garantir la qualité de toutes vos ressources de données dans le catalogue Unity. Il inclut la détection d’anomalies pour surveiller la qualité des données de toutes les tables d’un catalogue ou d’un schéma et le profilage des données pour surveiller les propriétés statistiques et la qualité des données d’une table individuelle. |
| Balises système certifiées et dépréciées (préversion privée) | Étiqueter des objets sécurisables, tels que des catalogues, des schémas et des tables, avec des indicateurs de qualité de données ou d’état de cycle de vie. Ces étiquettes système aident les organisations à appliquer la gouvernance, à améliorer la détectabilité des données et à accroître la confiance dans les applications d’analytique et d’IA. |
Collaboration et partage des données
Le catalogue Unity permet à vos utilisateurs de collaborer sur les mêmes données sur tous les espaces de travail de votre compte dans la même région. Lorsque vous avez besoin d’une collaboration entre les régions d’espace de travail, entre les organisations et les plateformes, Unity Catalog fournit la base des outils de partage suivants.
| Caractéristique | Descriptif |
|---|---|
| Delta Sharing | Plateforme de partage de données sécurisée qui vous permet de partager des données et des ressources IA dans Azure Databricks avec des utilisateurs externes à votre organisation, que ces utilisateurs utilisent Databricks ou non. |
| Salles propres | Un environnement géré par Databricks où plusieurs participants sur des plateformes Databricks et non Databricks peuvent collaborer sur des projets sans partager les données sous-jacentes entre eux. |
| Databricks Marketplace | Forum ouvert pour l’échange de données et de produits IA. Il fournit également un échange de données privé. |
Audit
Les journaux d’audit capturent des détails précis sur les personnes qui ont accédé à un jeu de données donné et les actions qu’ils ont effectuées. Unity Catalog ajoute des tables système, le moyen le plus simple d’accéder aux journaux d’audit de votre compte et de les interroger.
Consultez Informations de référence sur le journal de diagnostic et Surveillance de l’activité du compte au moyen de tables système.
Outils hérités de gouvernance des données Azure Databricks
Azure Databricks fournit également ces fonctionnalités de gouvernance héritées. Databricks vous recommande d’utiliser Unity Catalog à la place.
| Caractéristique | Descriptif |
|---|---|
| Contrôle d’accès aux tables | Modèle de gouvernance des données hérité qui vous permet d’accorder et de révoquer par programmation l’accès aux objets gérés par le metastore Hive intégré de votre espace de travail. |
| Transmission des informations d'identification pour Azure Data Lake Storage | Fonctionnalité de gouvernance des données héritée qui vous permet de vous authentifier automatiquement auprès du stockage Azure à partir de clusters Azure Databricks à l’aide de la même identité d’ID Microsoft Entra que vous utilisez pour vous connecter à Azure Databricks. |
Étapes suivantes
- En savoir plus sur Unity Catalog : Qu’est-ce que Unity Catalog ?
- Prise en main du catalogue Unity : Prise en main du catalogue Unity
- Passez en revue les meilleures pratiques : Qu’est-ce que le catalogue Unity ?