Data Governance mithilfe von Unity Catalog und Microsoft Purview
Data Governance ist wichtig, um sicherzustellen, dass Daten innerhalb einer Organisation sicher, effizient und in Übereinstimmung mit Vorschriften verwaltet werden.
In vielen Organisationen werden Daten über Datenbanken, Data Warehouses, Datenseen und sogar mehrere Kataloge verteilt. Es existiert auch in verschiedenen Formaten wie Parquet, CSV und Delta Lake. Neben strukturierten Daten in Tabellen gibt es auch unstrukturierte Daten in Dateien sowie andere Ressourcen wie Machine Learning-Modelle, Notizbücher und Dashboards, die Verwaltung und Governance erfordern. Diese Fragmentierung schafft Silos über Quellen, Formate und Objekttypen hinweg.
Diese Governance-Herausforderungen wirken sich direkt auf den Wert aus, den Organisationen aus Daten und KI ziehen können.
Fragmentierte Governance erhöht Compliance-, Sicherheits- und Datenqualitätsrisiken und schafft gleichzeitig operative Ineffizienzen, da Teams kämpfen, um eine konsistente Ansicht ihrer Daten- und KI-Umgebungen aufrechtzuerhalten.
Eingeschränkte Konnektivität kann zu einer Anbietersperrung führen und es schwieriger machen, neue Technologien einzuführen, wenn sich die Anforderungen ändern. Eine schlechte Interoperabilität erschwert auch die Zusammenarbeit und Skalierung, was häufig zu höheren Kosten durch die Verwendung mehrerer Tools und das Duplizieren von Daten über Systeme hinweg führt.
Ein Mangel an integrierter Intelligenz schränkt die breitere Verwendung von Daten und KI-Plattformen ein, insbesondere für nicht technische Benutzer. Dadurch werden Innovationen verlangsamt, entscheidungsverzögert und unternehmen daran gehindert, die Vorteile ihrer Daten- und KI-Investitionen vollständig zu erkennen.
Azure Databricks, kombiniert mit Unity Catalog und Microsoft Purview, bietet eine robuste Lösung zum effektiven Verwalten von Daten und ihrer Qualität.
Unity-Katalog
Unity Catalog bietet eine zentrale Möglichkeit zum Verwalten von Zugriff, Ermittlung, Lineage, Überwachungsprotokollen und Qualitätsüberwachung über Daten und KI-Ressourcen in Azure Databricks hinweg. Sie gilt konsistent für alle Arbeitsbereiche in einer Region.
Der Metaspeicher ist der Metadatencontainer der obersten Ebene; sie enthält Informationen zu Datenressourcen und den Berechtigungen, die sie steuern. Normalerweise verfügen Sie über einen Metaspeicher pro Region, und mehrere Arbeitsbereiche können diesen Metaspeicher freigeben.
Unity Catalog organisiert Datenressourcen mithilfe einer strukturierten Hierarchie auf drei Ebenen:
catalog.schema.table_or_other_object
- Kataloge gruppieren Ressourcen, die normalerweise an Teams oder Umgebungen ausgerichtet sind.
- Schemas (auch als Datenbanken bezeichnet) sind Unterteilungen innerhalb von Katalogen, wobei Ressourcen genauer organisiert werden , z. B. nach Projekt oder Anwendungsfall.
- Objekte in Schemas umfassen Tabellen (verwaltet oder extern), Ansichten, Volumes, Funktionen und Modelle.
Tabellen können entweder verwaltet oder extern sein. Mit verwalteten Tabellen behandelt Unity Catalog Sowohl Governance als auch Speicher (immer Delta Lake-Format). Mit externen Tabellen verwaltet Unity Catalog den Zugriff von Databricks, der Datenlebenszyklus/-speicher wird jedoch extern verwaltet. Dies unterstützt mehrere Formate (Delta, CSV, JSON, Parkett usw.)
Unity Catalog implementiert eine differenzierte Zugriffssteuerung über ANSI SQL-Befehle auf mehreren Ebenen – Metastore, Katalog, Schema, bis hin zu Zeilen und Spalten. Mit dem folgenden Befehl wird beispielsweise der Benutzergruppe "finance-team" die Berechtigung zum Erstellen neuer Tabellen im "myschema" in der Datenbank "mycatalog" erteilt.
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Das Untersuchen von Datenressourcen im Unity-Katalog ist einfach. Sie können den Katalog-Explorer und eine Suchschnittstelle verwenden, um zu finden, was Sie benötigen. Um Ihnen zu helfen, verfügen Ressourcen über Tags, Kommentare und sogar KI-generierte Beschreibungen. Sobald Sie eine Datenressource gefunden haben, können Sie Features wie Linien-, Tabelleneinblicke und Entitätsbeziehungsdiagramme verwenden, um ein besseres Verständnis dafür zu erhalten.
Unity Catalog bietet ein vollständiges Bild des Verlaufs Ihrer Daten. Es protokolliert Zugriff, Überwachungspfade und Linien – bis runter zur Spaltenebene.
In den meisten Konten ist Unity Catalog standardmäßig aktiviert, wenn Sie einen Arbeitsbereich erstellen. Sie können mit der Verwendung des Unity-Katalogs mit den Standardeinstellungen beginnen. Es gibt optionale Konfigurationen, die Sie möglicherweise aktivieren möchten.
Microsoft Purview
Microsoft Purview ist ein Datengovernancedienst, mit dem Sie Daten auf lokalen Systemen, mehreren Clouds und SaaS-Plattformen verwalten und überwachen können. Sie enthält Features wie Datenermittlung, Klassifizierung, Linienverfolgung und Zugriffsgovernance.
Wenn es in Azure Databricks und Unity Catalog integriert ist, kann Purview Lakehouse-Daten entdecken und deren Metadaten in die Datenkarte einfügen. Auf diese Weise können Sie eine konsistente Governance in Ihrer gesamten Datenumgebung anwenden und gleichzeitig als zentraler Katalog fungieren, der Metadaten aus verschiedenen Quellen zusammenführt.
Mit dieser Integration können Sie:
- Scannen Sie Azure Databricks in öffentlichen und privaten Netzwerken, unterstützt von der vollständig verwalteten Microsoft Purview-Integrationslaufzeit.
- Scannen Sie den gesamten Unity-Katalog-Metastore , oder scannen Sie nur selektive Kataloge.
- Extrahieren Sie einen umfassenden Satz von Unity-Katalogmetadaten, einschließlich Details zu Metastore, Katalogen, Schemas, Tabellen/Ansichten und Spalten usw.
- Klassifizieren Sie die Daten automatisch basierend auf integrierten Systemklassifizierungsregeln oder benutzerdefinierten Klassifizierungsregeln, um vertrauliche Daten zu identifizieren.
- Erhalten Sie detaillierte Einblicke in die Datenlinie, die zeigt, wie Daten transformiert und über verschiedene Systeme und Prozesse hinweg verschoben werden, einschließlich in Azure Databricks.
- Führen Sie den Scan bei Bedarf oder nach einem täglichen/wöchentlichen/monatlichen wiederkehrenden Zeitplan aus.
Darüber hinaus kann Microsoft Purview den Hive-Metaspeicher auf Arbeitsbereichsebene in Azure Databricks scannen.