Freigeben über


Herstellen einer Verbindung mit und Verwalten von Azure Databricks Unity Catalog in Microsoft Purview

In diesem Artikel wird beschrieben, wie Sie Azure Databricks registrieren und wie Sie azure Databricks Unity Catalog in Microsoft Purview authentifizieren und damit interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.

Unterstützte Funktionen

Scanfunktionen

Metadatenextraktion Vollständiger Scan Inkrementelle Überprüfung Bereichsbezogene Überprüfung
Ja Ja Ja Ja

Beim Überprüfen von Azure Databricks Unity Catalog unterstützt Microsoft Purview Folgendes:

  • Extrahieren von technischen Metadaten, einschließlich:
    • Metastore
    • Kataloge
    • Schemata
    • Tabellen einschließlich der Spalten
    • Ansichten einschließlich der Spalten
  • Abrufen der Herkunft für Ressourcenbeziehungen zwischen Tabellen, Sichten und Spalten während Notebookausführungen.

Beim Einrichten der Überprüfung können Sie den gesamten Unity Catalog überprüfen oder die Überprüfung auf eine Teilmenge von Katalogen festlegen.

Weitere Funktionen

Klassifizierungen, Vertraulichkeitsbezeichnungen, Richtlinien, Datenherkunft und Liveansicht finden Sie in der Liste der unterstützten Funktionen.

Hinweis

Dieser Connector stellt Metadaten aus Azure Databricks Unity Catalog bereit. Informationen zum Überprüfen von Metadaten im Bereich des Azure Databricks-Arbeitsbereichs finden Sie unter Azure Databricks Hive-Metastore-Connector.

Bekannte Einschränkungen

  • Databricks-Notebooknamen werden in Microsoft Purview als numerische IDs anstelle lesbarer Namen angezeigt. Dies ist eine Databricks-Einschränkung, da Notebooknamen in der Unity Catalog-Systemtabelle nicht verfügbar gemacht werden.

  • Möglicherweise treten Fehler auf, wenn die Überprüfungsergebnisse von Azure Databricks 1 MB überschreiten und der von Azure Databricks verwaltete Blobspeicher den Zugriff auf öffentliche Netzwerke verweigert. Um dies zu verhindern, stellen Sie sicher, dass Purview Zugriff auf den internen DBFS-Speicherort des zu überprüfenden Azure Databricks-Arbeitsbereichs hat. Weitere Informationen hierzu finden Sie hier.

  • Die inkrementelle Überprüfung ist nur für die Azure Databricks Unity Catalog-Datenquelle verfügbar.

  • Die bereichsbezogene Überprüfung ist nur für die Unity Catalog-Option unter Azure Databricks-Datenquelle verfügbar.

  • Verwaltete private Endpunkte können nur für die Unity Catalog-Option unter Azure Databricks-Datenquelle hinzugefügt werden.

  • Wenn das Objekt aus der Datenquelle gelöscht wird, wird das entsprechende Objekt in Microsoft Purview bei der nachfolgenden Überprüfung derzeit nicht automatisch entfernt.

  • Datenherkunftsinformationen sind in Azure Databricks-Arbeitsbereichen in der Region China nicht verfügbar. Dies liegt daran, dass Azure Databricks-Systemtabellen in dieser Region nicht unterstützt werden. Microsoft Purview verwendet diese Tabellen zum Extrahieren der Herkunft, sodass die Herkunft in dieser Region nicht abgerufen werden kann.

  • Weitere Informationen zu anderen Einschränkungen im Zusammenhang mit der nativen Azure Databricks-Herkunft finden Sie in der Azure Databricks-Dokumentation.

Voraussetzungen

  • Sie müssen über ein Azure-Konto mit einem aktiven Abonnement verfügen. Erstellen Sie kostenlos ein Konto.

  • Sie müssen über ein aktives Microsoft Purview-Konto verfügen.

  • Sie benötigen eine Azure-Key Vault und um Microsoft Purview-Berechtigungen für den Zugriff auf Geheimnisse zu erteilen.

  • Sie benötigen Datenquellenadministrator- und Datenleserberechtigungen, um eine Quelle zu registrieren und im klassischen Microsoft Purview-Governanceportal zu verwalten. Weitere Informationen zu Berechtigungen finden Sie unter Zugriffssteuerung in Microsoft Purview.

  • Um Azure Databricks Unity Catalog zu überprüfen, stellt Microsoft Purview eine Verbindung mit einem SQL-Warehouse in Ihrem Arbeitsbereich her und verwendet das persönliche Zugriffstoken für die Authentifizierung. Sie benötigen einen Azure Databricks-Arbeitsbereich, der Unity Catalog aktiviert und an den Metastore angefügt ist, den Sie überprüfen möchten. In Ihrem Azure Databricks-Arbeitsbereich:

    • Erstellen Sie ein SQL-Warehouse. Sie können ggf. auch das automatisch erstellte Starter-Warehouse verwenden.

      • Notieren Sie sich den HTTP-Pfad. Sie finden sie im AZURE Databricks-Arbeitsbereich > SQL Warehouses > Ihres Warehouses > Verbindungsdetails > HTTP-Pfad.

      • Stellen Sie sicher, dass der Benutzer über die Berechtigung Kann verwenden verfügt, damit er eine Verbindung mit dem Azure Databricks SQL-Warehouse herstellen kann. Weitere Informationen finden Sie unter Sql Warehouse-Zugriffssteuerung.

      • Das SQL-Warehouse in Azure Databricks muss ausgeführt werden, um eine Verbindung mit Microsoft Purview herzustellen, bevor die Überprüfung in Microsoft Purview eingerichtet wird.

  • Zum Abrufen der Herkunft aus Azure Databricks mithilfe von Microsoft Purview müssen die folgenden Voraussetzungen erfüllt sein:

    • Systemschema aktivieren: Das Systemschema system.access muss in Ihrem Unity Catalog aktiviert sein. Dies ist erforderlich, da Herkunftsinformationen in Systemtabellen gespeichert werden, und die Aktivierung dieses Schemas ermöglicht den Zugriff auf diese Tabellen. Erfahren Sie mehr über die Überwachung der Nutzung mit Systemtabellen.

    • Benutzerberechtigungen: Das für die Überprüfung verwendete Benutzerkonto muss über SELECT-Berechtigungen für die folgenden Systemtabellen verfügen:

      • system.access.table_lineage

      • system.access.column_lineage

      Diese Berechtigungen sind erforderlich, da Herkunftsdaten direkt aus den Systemtabellen gelesen werden und Ohne den erforderlichen Zugriff kann Microsoft Purview die Herkunftsinformationen nicht abrufen.

  • Wenn Ihr Azure Databricks-Arbeitsbereich den Zugriff aus einem öffentlichen Netzwerk nicht zulässt oder Ihr Microsoft Purview-Konto nicht den Zugriff aus allen Netzwerken ermöglicht, können Sie die Verwaltete Virtual Network Integration Runtime oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime für die Überprüfung verwenden. Sie können bei Bedarf einen verwalteten privaten Endpunkt für Azure Databricks einrichten, um eine private Konnektivität herzustellen.

Datenquelleneinrichtung (Azure Databricks im Vergleich zu Azure Databricks Unity Catalog)

Die Azure Databricks Unity Catalog-Verbindung mit Microsoft Purview kann über zwei Quellen eingerichtet werden:

  • Azure Databricks (alte Quelle)
  • Azure Databricks Unity Catalog

Unterschiede in den Funktionen zwischen Datenquellen

Die Funktionen des Azure Databricks Unity Catalog-Connectors unterscheiden sich je nach der für die Verbindung verwendeten Quelle, wie in dieser Tabelle beschrieben:

Funktion Alte Quelle Neue Quelle
Quellname Azure Databricks Azure Databricks Unity Catalog
Quellunterstützung Hive & Unity Catalog Unity Catalog
Authentifizierung: Persönliches Zugriffstoken Unterstützt Unterstützt
Authentifizierung: Dienstprinzipal Nein Unterstützt
Authentifizierung: Verwaltete Identität Nein Unterstützt (systemseitig verwaltete Identität)
Integration Runtime: Azure IR Unterstützt Unterstützt
Integration Runtime: Verwaltete vNet-IR Unterstützt Nein
Integration Runtime: Kubernetes Self-Hosted IR Unterstützt Unterstützt
Bereichsbezogene Überprüfung Ja – Katalogebene Nein
Inkrementelle Überprüfung Nein Ja
Herkunft Unterstützt Unterstützt

Welche Quelle sollte ich verwenden?

Sie können entweder die Quelle basierend auf den Anforderungen Ihrer organization auswählen oder beide parallel verwenden. Wenn Sie zwischen Quellen wechseln oder beides gleichzeitig verwenden , führt dies nicht zu einer Ressourcenduplizierung in Microsoft Purview. Diese Flexibilität ermöglicht Es Ihnen, mit der Option zu beginnen, die am besten zu Ihrem aktuellen Setup passt, und nach Bedarf im Laufe der Zeit anzupassen.

Authentifizierung für eine Überprüfung

Sie können persönliche Zugriffstoken, verwaltete Identitäten oder Dienstprinzipalauthentifizierungsmethoden zum Überprüfen von Azure Databricks Unity Catalog verwenden.

Bei Verwendung einer systemseitig zugewiesenen verwalteten Identität

In Azure Databricks
  1. Navigieren Sie zu Einstellungen>Arbeitsbereichsadministrator>Identität und Zugriff.

  2. Wählen Sie Dienstprinzipal hinzufügen aus.

  3. Wählen Sie Neu hinzufügen aus.

  4. Wählen Sie Microsoft Entra verwaltete ID aus. Geben Sie die Anwendungs-ID für Microsoft Purview an. Die Anwendungs-ID finden Sie unter Ressourcendetails des Microsoft Purview-Kontos in Azure-Portal.

Bild des Benutzers

In Microsoft Purview
  1. Wählen Sie unter Anmeldeinformationen die systemseitig zugewiesene verwaltete Identität aus.
  • Für alle Objekte, die Sie in Microsoft Purview einbinden möchten, muss der Benutzer oder Dienstprinzipal mindestens über select-Berechtigungen für Tabellen/Sichten, USE CATALOG für den Objektkatalog und USE SCHEMA für das Schema des Objekts verfügen.

Registrieren

In diesem Abschnitt wird beschrieben, wie Sie einen Azure Databricks-Arbeitsbereich in Microsoft Purview mithilfe des klassischen Microsoft Purview-Governanceportals registrieren.

  1. Wechseln Sie zu Ihrem Microsoft Purview-Konto.

  2. Wählen Sie im linken Bereich Data Map aus.

  3. Wählen Sie Registrieren aus.

  4. Wählen Sie unter Quellen registrieren die Option Azure Databricks Unity Catalog Continue (Azure Databricks Unity Catalog>Weiter) aus.

  5. Gehen Sie auf dem Bildschirm Quellen registrieren (Azure Databricks Unity Catalog) wie folgt vor:

  6. Geben Sie unter Name einen Namen ein, den Microsoft Purview als Datenquelle auflistet.

    1. Geben Sie für Metastore-ID die Metastore-ID für den Azure Databricks Unity Catalog-Metastore an, den Sie überprüfen möchten.

    2. Wählen Sie eine Sammlung aus der Liste aus.

Screenshot: Registrieren der Azure Databricks Unity Catalog-Quelle

  1. Klicken Sie auf Fertigstellen.

Überprüfung

Tipp

So beheben Sie Probleme mit der Überprüfung:

  1. Vergewissern Sie sich, dass Sie alle Voraussetzungen erfüllt haben.
  2. Lesen Sie unsere Dokumentation zur Problembehandlung bei Der Überprüfung.

Führen Sie die folgenden Schritte aus, um Azure Databricks zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie unter Scans und Erfassung in Microsoft Purview.

  1. Wechseln Sie zu Quellen.

  2. Wählen Sie die registrierte Azure Databricks-Instanz aus.

  3. Wählen Sie + Neuer Scan aus.

  4. Geben Sie die folgenden Details an:

    1. Name: Geben Sie einen Namen für die Überprüfung ein.

    2. Herstellen einer Verbindung über Integration Runtime: Wählen Sie die Standardmäßige Azure Integration Runtime, verwaltete Virtual Network IR oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime aus, die Sie erstellt haben.

    3. Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:

    4. Arbeitsbereichs-URL: Geben Sie die URL für den Arbeitsbereich an, den Sie überprüfen möchten.

    5. HTTP-Pfad: Geben Sie den HTTP-Pfad des Databricks SQL Warehouse an, mit dem Microsoft Purview eine Verbindung herstellt und die Überprüfung durchführt. Beispiel: /sql/1.0/endpoints/xxxxxxxxxxxxxxxx. Sie finden sie im Azure Databricks-Arbeitsbereich –> SQL Warehouses –> Ihr Warehouse –> Verbindungsdetails –> HTTP-Pfad.

    6. Herkunftsextraktion: Schalten Sie die Herkunftsextraktion auf Ein um, um die Herkunft der gescannten Ressourcen abzurufen.

  5. Wählen Sie Verbindung testen aus, um die Einstellungen zu überprüfen.

    Screenshot: Einrichten der Azure Databricks Unity Catalog-Überprüfung

  6. Wählen Sie Weiter.

  7. Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.

  8. Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.

Nachdem die Überprüfung erfolgreich abgeschlossen wurde, sehen Sie sich an, wie Sie Ressourcen durchsuchen und durchsuchen.

Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen

So zeigen Sie vorhandene Überprüfungen an:

  1. Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
  3. Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
  4. Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.

Verwalten ihrer Überprüfungen

So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:

  1. Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.

  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.

  3. Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:

    • Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
    • Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
    • Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.

Hinweis

  • Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.

Durchsuchen und Durchsuchen von Ressourcen

Nachdem Sie Ihre Azure Databricks-Instanz überprüft haben, können Sie Unified Catalog durchsuchen oder Unified Catalog suchen, um die Ressourcendetails und die Herkunft anzuzeigen.

Beim Durchsuchen nach Quelltypen werden zwei Einträge für Azure Databricks Unity Catalog bzw . Azure Databricks angezeigt. Das erste enthält die Unity Catalog-Artefakte einschließlich des Metastores und seiner Kataloge/Schemas/Tabellen/Sichten, während letztere die Arbeitsbereichsartefakte enthält.

Screenshot: Durchsuchen von Ressourcen nach Quelltyp

In der Azure Databricks-Arbeitsbereichsressource finden Sie den zugeordneten Unity-Katalog auf der Registerkarte Eigenschaften. Umgekehrt gilt auch.

Screenshot: Suchen des zugehörigen Unity Catalog mit Azure Databricks-Quelle

Herkunft

Wenn Sie eine bestimmte Azure Databricks-Ressource durchsuchen, können Sie die Notebooks sehen, die die Herkunft erfasst haben.

Wechseln Sie zur Registerkarte Asset –> Herkunft. Sie können die Herkunft des Azure Databricks Notebook-Medienobjekts oder der Tabellen-/Ansichtsressource anzeigen, falls zutreffend.

Screenshot: Durchsuchen von Notebooks im zugehörigen Azure Databricks Unity Catalog-Arbeitsbereichsobjekt

Screenshot: Notebookherkunft im zugehörigen Azure Databricks Unity Catalog-Arbeitsbereichsobjekt

Unterstützte Herkunftsszenarien

  • Die Herkunft wird für Tabellen und Sichten unterstützt, wenn sie über Databricks-Notebooks innerhalb von Unity Catalog verbunden sind.

  • Die Herkunft wird nur für Objekte angezeigt, die über Microsoft Purview gescannt wurden. Alle zugehörigen Ressourcen müssen gescannt werden, um ein vollständiges Herkunftsdiagramm zu bilden. Stellen Sie sicher, dass alle Databricks-Arbeitsbereiche mit relevanten Notebooks in Microsoft Purview-Überprüfungen enthalten sind.

Herkunftseinschränkungen

  • Wenn Notebooks über Databricks-Aufträge ausgeführt werden, wird die Herkunft auf Spaltenebene möglicherweise nicht erfasst.
  • Microsoft Purview zeigt nur eine teilweise Herkunft an, wenn nicht alle an einem Datenfluss beteiligten Objekte überprüft werden. Wenn beispielsweise ein Notizbuch in Arbeitsbereich A Daten in eine Tabelle in Arbeitsbereich B schreibt, aber nur Arbeitsbereich A von Microsoft Purview überprüft wird, zeigt die Herkunft das Notizbuch, nicht aber die Zieltabelle an, was zu einer unvollständigen Herkunft führt.
  • Wenn ein Notebook von einem externen Dienst ausgelöst wird (z. B. Azure Data Factory [ADF]-Pipeline, die einen Databricks-Auftrag aufruft), spiegelt die Herkunft diese Abhängigkeit in Microsoft Purview nicht wider.
    • In diesem Fall wird die Herkunft zwischen ADF-Datasets und Databricks-Ressourcen nicht angezeigt.
    • Es wird nur die Herkunft erfasst, die in Databricks-Notebooks erstellt wurde.

Das Szenario "Herkunft fehlt"

Herkunftsextraktion ist passiv; Nur das, was über die Unity Catalog-Systemtabelle protokolliert und zugänglich ist, wird von Microsoft Purview erfasst.

  • Lesen Sie die obigen Abschnitte, um sicherzustellen, dass Ihr Herkunftsszenario unterstützt wird.
  • Überprüfen Sie, ob die Systemtabellen der Unity Catalog-Herkunft (system.access.table_lineage, system.access.column_lineage) ordnungsgemäß aufgefüllt werden.
  • Erstellen Sie ein Supportticket, wenn weiterhin Probleme auftreten.

Informationen zu den unterstützten Databricks Unity Catalog-Herkunftsszenarien finden Sie im Abschnitt unterstützte Funktionen . Weitere Informationen zur Herkunft im Allgemeinen finden Sie im Benutzerhandbuch zur Datenherkunft und -herkunft.

Häufig gestellte Fragen (FAQ)

Wird die Datenherkunft auf Spaltenebene aus Unity Catalog von Microsoft Purview erfasst?

Microsoft Purview kann die Herkunft sowohl auf der Tabellen-/Sichtebene von Unity Catalog als auch auf Spaltenebene erfassen.

Die Herkunft auf Spaltenebene wird nicht angezeigt. Was geschieht?

Die Herkunft auf Spaltenebene wird generiert, wenn Ihr Notebook aus einem Cluster ausgeführt wird und nicht über ein SQL-Warehouse generiert wird.

Ich erhalte einen Timeoutfehler. Wie gehe ich vor?

Wenn in Ihrem Arbeitsbereich eine große Menge an Ressourcen vorhanden ist, kann Die Überprüfung möglicherweise nicht abgeschlossen werden. In diesem Fall können Sie ihre Überprüfung auf einige Kataloge gleichzeitig festlegen, wodurch die Menge der Ressourcen pro Überprüfung reduziert und Ihre Überprüfungen abgeschlossen werden können.

Ich habe gerade mein Notizbuch ausgeführt, aber Microsoft Purview hat die Herkunft nicht abgerufen. Was passiert?

Es kann einige Minuten dauern, bis Databricks die Herkunftsinformationen in den Systemtabellen nach der Ausführung Ihres Notebooks aktualisiert. Microsoft Purview kann die Herkunft abrufen, sobald die Systemtabellen aktualisiert wurden.

Nächste Schritte

Nachdem Ihre Quelle registriert wurde, verwenden Sie die folgenden Leitfäden, um mehr über Microsoft Purview und Ihre Daten zu erfahren: