Gouvernance des données en utilisant Unity Catalog et Microsoft Purview
La gouvernance des données est essentielle pour garantir que les données au sein d’une organisation sont gérées en toute sécurité, efficace et conforme aux réglementations.
Dans de nombreuses organisations, les données sont distribuées entre les bases de données, les entrepôts de données, les lacs de données et même plusieurs catalogues. Il existe également dans différents formats tels que Parquet, CSV et Delta Lake. Au-delà des données structurées dans les tables, il existe également des données non structurées dans des fichiers, ainsi que d’autres ressources telles que des modèles Machine Learning, des notebooks et des tableaux de bord qui nécessitent une gestion et une gouvernance. Cette fragmentation crée des silos entre les sources, les formats et les types de ressources.
Ces défis de gouvernance affectent directement la valeur que les organisations peuvent dériver des données et de l'IA.
La gouvernance fragmentée augmente les risques de conformité, de sécurité et de qualité des données, tout en créant des inefficacités opérationnelles, car les équipes luttent pour maintenir une vue cohérente de leurs données et environnements IA.
Une connectivité limitée peut entraîner un verrouillage du fournisseur et rendre plus difficile l’adoption de nouvelles technologies à mesure que les exigences changent. L’interopérabilité médiocre complique également la collaboration et la mise à l’échelle, ce qui entraîne souvent des coûts plus élevés à l’aide de plusieurs outils et dupliquer des données entre les systèmes.
Un manque d’intelligence intégrée limite l’utilisation plus large des données et des plateformes IA, en particulier pour les utilisateurs non techniques. Cela ralentit l’innovation, retarde la prise de décision et empêche les organisations de tirer pleinement parti des avantages de leurs données et de leurs investissements en IA.
Azure Databricks, combiné à Unity Catalog et Microsoft Purview, fournit une solution robuste pour gérer efficacement les données.
Catalogue d’unité
Unity Catalog offre un moyen centralisé de gérer l’accès, la découverte, la traçabilité, les journaux d’audit et la surveillance de la qualité entre les ressources de données et d’IA dans Azure Databricks. Il s’applique de manière cohérente à tous les espaces de travail d’une région.
Le metastore est le conteneur de métadonnées de niveau supérieur ; il contient des informations sur les ressources de données et les autorisations qui les régissent. Vous disposez généralement d’un metastore par région, et plusieurs espaces de travail peuvent partager ce metastore.
Unity Catalog organise les ressources de données à l’aide d’une hiérarchie structurée à trois niveaux :
catalog.schema.table_or_other_object
- Les catalogues regroupent les ressources généralement vis-à-vis des équipes ou des environnements.
- Les schémas (également appelés bases de données) sont des sous-divisions au sein des catalogues, l’organisation des ressources de manière plus granulaire, par exemple par projet ou cas d’usage.
- Les objets des schémas incluent des tables (gérées ou externes), des vues, des volumes, des fonctions et des modèles.
Les tables peuvent être gérées ou externes. Avec les tables managées, Unity Catalog gère à la fois la gouvernance et le stockage (toujours au format Delta Lake). Avec les tables externes, Unity Catalog gère l’accès à partir de Databricks, mais le cycle de vie/stockage des données est géré en externe. Cela prend en charge plusieurs formats (Delta, CSV, JSON, Parquet, etc.)
Unity Catalog implémente un contrôle d’accès affiné via des commandes ANSI SQL sur plusieurs niveaux : metastore, catalogue, schéma, jusqu’aux lignes et colonnes. Par exemple, la commande suivante donne au groupe d’utilisateurs « finance-team » l’autorisation de créer de nouvelles tables dans la base de données « mycatalog ».
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
L’exploration des ressources de données dans le catalogue Unity est simple. Vous pouvez utiliser l’Explorateur de catalogues et une interface de recherche pour trouver ce dont vous avez besoin. Pour vous aider, les ressources ont des balises, des commentaires et même des descriptions générées par l’IA. Une fois la ressource de données trouvée, vous pouvez utiliser des fonctionnalités telles que la traçabilité, les aperçus de table et les schémas de relations d'entité pour mieux les comprendre.
Unity Catalog fournit une image complète de l’historique de vos données. Ils enregistrent l’accès, les pistes d’audit et la traçabilité, jusqu’au niveau de colonne.
Dans la plupart des comptes, le catalogue Unity est activé par défaut lorsque vous créez un espace de travail. Vous pouvez commencer à utiliser le catalogue Unity avec les paramètres par défaut. Toutefois, il existe des configurations facultatives que vous souhaiterez peut-être activer.
Microsoft Purview
Microsoft Purview est un service de gouvernance des données qui vous permet de gérer et de superviser les données entre les systèmes locaux, plusieurs clouds et plateformes SaaS. Il inclut des fonctionnalités telles que la découverte de données, la classification, le suivi de la traçabilité et la gouvernance des accès.
Lorsqu’il est intégré à Azure Databricks et au catalogue Unity, Purview peut découvrir les données Lakehouse et ingérer ses métadonnées dans la carte de données. Cela vous permet d’appliquer une gouvernance cohérente dans l’ensemble de votre environnement de données, tout en agissant comme un catalogue central qui regroupe les métadonnées provenant de différentes sources.
Avec cette intégration, vous pouvez :
- Analyser Azure Databricks dans les réseaux publics et privés, alimenté par le runtime d’intégration Microsoft Purview entièrement géré.
- Analysez l’intégralité du metastore du catalogue Unity ou choisissez d’analyser uniquement les catalogues sélectifs.
- Extrayez un ensemble complet de métadonnées de catalogue Unity, notamment les détails du metastore, des catalogues, des schémas, des tables/vues et des colonnes, etc.
- Classifiez automatiquement les données en fonction de règles de classification système intégrées ou de règles de classification personnalisées définies par l’utilisateur pour identifier les données sensibles.
- Obtenez une visibilité détaillée de la traçabilité des données, montrant comment les données sont transformées et déplacées sur différents systèmes et processus, notamment dans Azure Databricks.
- Exécutez l’analyse à la demande ou selon une planification périodique quotidienne/hebdomadaire/mensuelle.
En outre, Microsoft Purview peut analyser le metastore Hive au niveau de l’espace de travail dans Azure Databricks.