Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel bietet eine Übersicht über die Scan- und Erfassungsfeatures in Microsoft Purview Data Map. Diese Features verbinden Ihr Microsoft Purview-Konto mit Ihren Quellen, um Data Map und Unified Catalog aufzufüllen, sodass Sie mit der Untersuchung und Verwaltung Ihrer Daten über Microsoft Purview beginnen können.
- Bei der Überprüfung werden Metadaten aus Datenquellen erfasst und in Microsoft Purview bereitgestellt.
-
Die Erfassung verarbeitet Metadaten und speichert sie in Unified Catalog aus beiden:
- Datenquellenscans: Gescannte Metadaten werden Data Map hinzugefügt.
- Herkunftsverbindungen: Transformationsressourcen fügen Data Map Metadaten zu ihren Quellen, Ausgaben und Aktivitäten hinzu.
Analyse
Nachdem Sie Datenquellen in Ihrem Microsoft Purview-Konto registriert haben, überprüfen Sie die Datenquellen. Der Überprüfungsprozess stellt eine Verbindung mit der Datenquelle her und erfasst technische Metadaten wie Namen, Dateigröße, Spalten und mehr. Außerdem werden Schemas für strukturierte Datenquellen extrahiert, Klassifizierungen für Schemas angewendet und Vertraulichkeitsbezeichnungen angewendet, wenn Ihre Data Map mit dem Microsoft Purview-Portal verbunden ist. Sie können den Überprüfungsprozess so auslösen, dass er sofort ausgeführt wird, oder die regelmäßige Ausführung planen, um Ihr Microsoft Purview-Konto auf dem neuesten Stand zu halten.
Für jede Überprüfung können Sie den Prozess so anpassen, dass Sie nur die benötigten Informationen und nicht die gesamte Quelle überprüfen.
Auswählen einer Authentifizierungsmethode für Ihre Überprüfungen
Microsoft Purview ist standardmäßig sicher. Kennwörter oder Geheimnisse werden nicht direkt gespeichert, sodass Sie eine Authentifizierungsmethode für Ihre Quellen auswählen müssen. Sie können Ihr Microsoft Purview-Konto auf verschiedene Arten authentifizieren, aber nicht alle Methoden werden für jede Datenquelle unterstützt.
- Verwaltete Identität
- Dienstprinzipal
- SQL-Authentifizierung
- Windows-Authentifizierung
- Rollen-ARN
- Delegierte Authentifizierung
- Consumerschlüssel
- Kontoschlüssel oder Standardauthentifizierung
Verwenden Sie nach Möglichkeit eine verwaltete Identität, da dadurch das Speichern und Verwalten von Anmeldeinformationen für einzelne Datenquellen entfällt. Diese Methode kann die Zeit, die Sie und Ihr Team für die Einrichtung und Problembehandlung der Authentifizierung für Überprüfungen aufwenden, erheblich reduzieren. Wenn Sie eine verwaltete Identität für Ihr Microsoft Purview-Konto aktivieren, wird eine Identität in Microsoft Entra ID (Entra-ID) erstellt und an den Lebenszyklus Ihres Kontos gebunden.
Festlegen des Scanbereichs
Beim Scannen einer Quelle können Sie die gesamte Datenquelle überprüfen oder nur bestimmte Entitäten (Ordner oder Tabellen) auswählen, die überprüft werden sollen. Die verfügbaren Optionen hängen von der Quelle ab, die Sie überprüfen. Sie können diese Optionen sowohl für einmalige als auch für geplante Überprüfungen definieren.
Wenn Sie beispielsweise eine Überprüfung für eine Azure SQL Datenbank erstellen und ausführen, können Sie auswählen, welche Tabellen überprüft werden sollen, oder die gesamte Datenbank auswählen.
Für jede Entität (Ordner oder Tabelle) gibt es drei Auswahlzustände: vollständig ausgewählt, teilweise ausgewählt und nicht ausgewählt. Wenn Sie im folgenden Beispiel Abteilung 1 in der Ordnerhierarchie auswählen, gilt Abteilung 1 als vollständig ausgewählt. Die übergeordneten Entitäten für Abteilung 1( Unternehmen und Beispiel) werden als teilweise ausgewählt betrachtet, da die anderen Entitäten unter demselben übergeordneten Element (z. B. Abteilung 2) nicht ausgewählt sind. Auf der Benutzeroberfläche werden verschiedene Symbole für Entitäten mit unterschiedlichen Auswahlzuständen verwendet.
Nachdem Sie die Überprüfung ausgeführt haben, werden wahrscheinlich neue Ressourcen im Quellsystem hinzugefügt. Standardmäßig werden zukünftige Ressourcen unter einem bestimmten übergeordneten Element automatisch ausgewählt, wenn das übergeordnete Element vollständig oder teilweise ausgewählt ist, wenn Sie die Überprüfung erneut ausführen. Nachdem Sie im vorherigen Beispiel Abteilung 1 ausgewählt und die Überprüfung ausgeführt haben, werden alle neuen Ressourcen im Ordner Abteilung 1 oder unter Unternehmen und Beispiel eingeschlossen, wenn Sie die Überprüfung erneut ausführen.
Mit einer Umschaltfläche, wie in der folgenden Abbildung zu sehen, können Benutzer die automatische Einbindung für neue Ressourcen unter teilweise ausgewähltem übergeordnetem Element steuern. Standardmäßig ist der Umschalter deaktiviert, und das automatische Einschlussverhalten für ein teilweise ausgewähltes übergeordnetes Element ist deaktiviert. Wenn die Umschaltfläche deaktiviert ist, werden alle neuen Ressourcen unter teilweise ausgewählten übergeordneten Elementen wie Unternehmen und Beispiel nicht einbezogen, wenn Sie die Überprüfung erneut ausführen. nur neue Ressourcen unter Abteilung 1 sind in der zukünftigen Überprüfung enthalten.
Wenn die Umschaltfläche aktiviert ist, werden die neuen Ressourcen unter einem übergeordneten Element automatisch ausgewählt, wenn das übergeordnete Element vollständig oder teilweise ausgewählt ist, wenn Sie die Überprüfung erneut ausführen. Das Einschlussverhalten ist dasselbe wie vor der Einführung des Umschalters.
Hinweis
- Die Verfügbarkeit der Umschaltfläche hängt vom Datenquellentyp ab. Derzeit ist es in der öffentlichen Vorschau für Quellen wie Azure Blob Storage, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Azure Files und Azure dedizierten SQL-Pool (ehemals SQL DW) verfügbar.
- Für alle Überprüfungen, die vor der Einführung des Umschalters erstellt oder geplant wurden, wird der Umschaltzustand auf Ein festgelegt und kann nicht geändert werden. Bei überprüfungen, die nach der Einführung des Umschalters erstellt oder geplant wurden, kann der Umschaltzustand nach dem Speichern der Überprüfung nicht mehr geändert werden. Sie müssen eine neue Überprüfung erstellen, um den Umschaltzustand zu ändern.
- Wenn der Umschalter deaktiviert ist, kann es für Quellen des Speichertyps wie Azure Data Lake Storage Gen 2 bis zu vier Stunden dauern, bis das Durchsuchen nach Quelltyp nach Abschluss des Scanauftrags vollständig verfügbar ist.
Bekannte Einschränkungen
Wenn der Umschalter deaktiviert ist:
- Die Dateientitäten unter einem teilweise ausgewählten übergeordneten Element werden nicht überprüft.
- Wenn alle vorhandenen Entitäten unter einem übergeordneten Element explizit ausgewählt sind, gilt das übergeordnete Element als vollständig ausgewählt, und alle neuen Ressourcen unter dem übergeordneten Element werden beim erneuten Ausführen der Überprüfung einbezogen.
Anpassen der Scanebene
In der Data Map-Terminologie gibt es basierend auf dem Metadatenbereich und den Funktionen drei verschiedene Überprüfungsebenen:
- L1-Scan: Extrahiert grundlegende Informationen und Metadaten wie Dateiname, Größe und vollqualifizierter Name
- L2-Überprüfung: Extrahiert das Schema für strukturierte Dateitypen und Datenbanktabellen.
- L3-Überprüfung: Extrahiert ggf. das Schema und unterzieht die Stichprobendatei dem System und benutzerdefinierten Klassifizierungsregeln.
Wenn Sie eine neue Überprüfung einrichten oder eine vorhandene Überprüfung bearbeiten, können Sie die Überprüfungsebene für die Überprüfung von Datenquellen anpassen, die die Konfiguration der Überprüfungsebene unterstützen.
Standardmäßig wird die Option "Auto detect" (Automatische Erkennung) ausgewählt, was bedeutet, dass Microsoft Purview die höchste für diese Datenquelle verfügbare Überprüfungsstufe anwendet. Nehmen wir Azure SQL Datenbank als Beispiel: Die automatische Erkennung wird als "Level-3" aufgelöst, wenn die Überprüfung ausgeführt wird, da die Datenquelle bereits die Klassifizierung in Microsoft Purview unterstützt hat. Die Überprüfungsebene in den Details zur Überprüfungsausführung zeigt die tatsächlich angewendete Ebene an.
Für alle Überprüfungsausführungen im Scanverlauf, die vor dem Anpassen der Scanebene als neues Feature abgeschlossen wurden, wird die Scanebene als Automatische Erkennung festgelegt und angezeigt.
Wenn eine höhere Scanebene für eine Datenquelle verfügbar wird, wenden die gespeicherten oder geplanten Überprüfungen, für die die Scanebene auf Automatisch erkennen festgelegt ist, automatisch die neue Scanebene an. Wenn z. B. die Klassifizierung als neues Feature für eine bestimmte Datenquelle aktiviert ist, wenden alle vorhandenen Überprüfungen für diese Datenquelle automatisch die Klassifizierung an.
Die Einstellung der Scanebene wird in der Scanüberwachungsschnittstelle für jeden Scanlauf angezeigt.
Wenn Sie Level-1 auswählen, werden bei der Überprüfung basierend auf der vorhandenen Metadatenverfügbarkeit einer bestimmten Datenquelle nur grundlegende technische Metadaten wie Ressourcenname, Ressourcengröße, geänderter Zeitstempel usw. zurückgegeben. Für SQL-Datenbank erstellt der Prozess Objektentitäten wie Tabellen in Data Map, extrahiert jedoch nicht das Tabellenschema. (Hinweis: Benutzer können das Tabellenschema weiterhin über die Liveansicht anzeigen, wenn sie über die erforderlichen Berechtigungen im Quellsystem verfügen.)
Wenn Sie Level-2 auswählen, gibt die Überprüfung Tabellenschemas und grundlegende technische Metadaten zurück, aber es werden keine Datenstichproben und -klassifizierungen durchgeführt. Für Azure SQL-Datenbank erfassen Entitäten von Tabellenobjekten das Tabellenschema ohne Klassifizierungsinformationen.
Wenn Sie Level-3 auswählen, führt die Überprüfung die Datenstichproben und -klassifizierung aus. Dies ist eine Standardkonfiguration für Azure SQL Datenbanküberprüfung, bevor die Überprüfungsebene als neues Feature eingeführt wird.
Wenn Sie eine geplante Überprüfung auf eine niedrigere Überprüfungsebene festlegen und später auf eine höhere Überprüfungsebene ändern, führt die nächste Überprüfungsausführung automatisch eine vollständige Überprüfung durch und aktualisiert alle vorhandenen Datenressourcen aus der Datenquelle mit Metadaten, die durch eine höhere Einstellung der Überprüfungsebene eingeführt wurden. Wenn Sie beispielsweise einen geplanten Scansatz mit Level-2 für eine Azure SQL-Datenbank in Ebene 3 ändern, ist die nächste Überprüfungsausführung eine vollständige Überprüfung und aktualisiert alle vorhandenen Azure SQL Datenbanktabelle und Anzeigen von Ressourcen mit Klassifizierungsinformationen. Danach werden alle Überprüfungen als inkrementelle Scans fortgesetzt, die mit Level-3 festgelegt sind.
Wenn Sie eine geplante Überprüfung auf eine höhere Überprüfungsebene festlegen und später auf eine niedrigere Überprüfungsebene ändern, wird bei der nächsten Überprüfungsausführung weiterhin eine inkrementelle Überprüfung durchgeführt, und alle neuen Datenressourcen aus der Datenquelle verfügen nur über Metadaten, die durch eine niedrigere Einstellung der Überprüfungsebene eingeführt wurden. Wenn Sie beispielsweise einen geplanten Überprüfungssatz mit Level-3 für eine Azure SQL-Datenbank in Ebene-2 ändern, ist die nächste Überprüfungsausführung eine inkrementelle Überprüfung, und alle neuen Azure SQL Datenbanktabelle und Ansichtsressourcen, die in Data Map hinzugefügt wurden, enthalten keine Klassifizierungsinformationen. Alle vorhandenen Datenressourcen behalten weiterhin die Klassifizierungsinformationen bei, die aus dem vorherigen Scansatz mit Level-3 generiert wurden.
Hinweis
- Das Anpassen der Überprüfungsebene ist derzeit für die folgenden Datenquellen verfügbar: Azure SQL Database, Azure SQL Managed Instance, Azure Cosmos DB for NoSQL, Azure Database for PostgreSQL, Azure Database for MySQL, Azure Data Lake Storage Gen2, Azure Blob Storage, Azure Files, Azure Synapse Analytics, Azure Dedizierter SQL-Pool (früher SQL DW), Azure Data Explorer, Dataverse, Azure Multiple (Azure-Abonnement), Azure Multiple (Azure-Ressourcengruppe), Snowflake, Azure Databricks Unity Catalog
- Derzeit ist das Feature nur in Azure Integration Runtime und Managed Virtual Network Integration Runtime v2 verfügbar.
Regelsatz überprüfen
Ein Überprüfungsregelsatz bestimmt die Arten von Informationen, nach denen eine Überprüfung sucht, wenn sie für eine Ihrer Quellen ausgeführt wird. Die verfügbaren Regeln hängen von der Art der Quelle ab, die Sie überprüfen, enthalten jedoch Elemente wie die Dateitypen , die Sie überprüfen sollten, und die Arten von Klassifizierungen , die Sie benötigen.
Viele Datenquellentypen verfügen bereits über Systemüberprüfungsregelsätze, aber Sie können auch eigene Überprüfungsregelsätze erstellen, um Ihre Überprüfungen an Ihre organization anzupassen.
Planen der Überprüfung
Microsoft Purview bietet Ihnen die Wahl zwischen täglichen, wöchentlichen oder monatlichen Überprüfungen zu einem von Ihnen gewählten Zeitpunkt. Erfahren Sie mehr über die unterstützten Zeitplanoptionen. Tägliche oder wöchentliche Überprüfungen können für Datenquellen mit Strukturen geeignet sein, die sich aktiv in der Entwicklung befinden oder sich häufig ändern. Die monatliche Überprüfung eignet sich besser für Datenquellen, die sich selten ändern. Arbeiten Sie mit dem Administrator der Quelle zusammen, die Sie überprüfen möchten, um einen Zeitpunkt zu ermitteln, zu dem die Computeanforderungen für die Quelle gering sind.
So erkennen Überprüfungen gelöschte Ressourcen
Ein Microsoft Purview-Katalog erkennt den Zustand eines Datenspeichers nur, wenn er eine Überprüfung ausführt. Damit der Katalog weiß, ob eine Datei, Tabelle oder ein Container gelöscht wird, vergleicht er die letzte Scanausgabe mit der aktuellen Scanausgabe. Angenommen, beim letzten Scannen eines Azure Data Lake Storage Gen2 Kontos wurde ein Ordner namens folder1 enthalten. Wenn dasselbe Konto erneut gescannt wird, fehlt folder1 . Daher geht der Katalog davon aus, dass der Ordner gelöscht wurde.
Tipp
Aufgrund der Art, wie gelöschte Dateien erkannt werden, benötigen Sie möglicherweise mehrere erfolgreiche Überprüfungen, um gelöschte Ressourcen zu erkennen und aufzulösen. Wenn Unified Catalog keine Löschungen für eine bereichsbezogene Überprüfung registriert, versuchen Sie es mit mehreren vollständigen Überprüfungen, um das Problem zu beheben.
Erkennen gelöschter Dateien
Die Logik zum Erkennen fehlender Dateien funktioniert für mehrere Überprüfungen durch denselben Benutzer und durch verschiedene Benutzer. Angenommen, ein Benutzer führt eine einmalige Überprüfung für einen Data Lake Storage Gen2 Datenspeicher in den Ordnern A, B und C aus. Später führt ein anderer Benutzer im selben Konto eine andere einmalige Überprüfung für die Ordner C, D und E desselben Datenspeichers aus. Da Ordner C zweimal überprüft wurde, überprüft der Katalog ihn auf mögliche Löschungen. Die Ordner A, B, D und E wurden jedoch nur einmal überprüft, und der Katalog überprüft sie nicht auf gelöschte Ressourcen.
Um gelöschte Dateien aus Ihrem Katalog zu entfernen, ist es wichtig, regelmäßige Überprüfungen durchzuführen. Das Überprüfungsintervall ist wichtig, da der Katalog gelöschte Ressourcen erst erkennen kann, wenn eine andere Überprüfung ausgeführt wird. Wenn Sie also einmal pro Monat Überprüfungen für einen bestimmten Speicher ausführen, kann der Katalog keine gelöschten Datenressourcen in diesem Speicher erkennen, bis Sie die nächste Überprüfung einen Monat später ausführen.
Wenn Sie große Datenspeicher wie Data Lake Storage Gen2 auflisten, gibt es mehrere Möglichkeiten (einschließlich Enumerationsfehlern und verworfenen Ereignissen), Um Informationen zu verpassen. Bei einer bestimmten Überprüfung kann es vorkommen, dass eine Datei erstellt oder gelöscht wurde. Es sei denn, der Katalog ist sicher, dass eine Datei gelöscht wird, wird sie nicht aus dem Katalog gelöscht. Diese Strategie bedeutet, dass Fehler auftreten können, wenn eine Datei, die nicht im gescannten Datenspeicher vorhanden ist, noch im Katalog vorhanden ist. In einigen Fällen muss ein Datenspeicher möglicherweise zwei- oder dreimal überprüft werden, bevor er bestimmte gelöschte Ressourcen abfängt.
Hinweis
- Objekte, die zum Löschen markiert sind, werden nach einer erfolgreichen Überprüfung gelöscht. Gelöschte Ressourcen sind möglicherweise noch einige Zeit in Ihrem Katalog sichtbar, bevor sie verarbeitet und entfernt werden.
- Die Löscherkennung wird nur für diese Quellen in Microsoft Purview unterstützt: Azure Synapse Analytics-Arbeitsbereiche, Azure Arc-fähige SQL Server, Azure Blob Storage, Azure Files, Azure Cosmos DB, Azure Data Explorer, Azure Database for MySQL, Azure Database for PostgreSQL, Azure dedizierter SQL-Pool, Azure Machine Learning, Azure SQL Database und Azure SQL Managed instance. Wenn für diese Quellen ein Medienobjekt aus der Datenquelle gelöscht wird, werden bei nachfolgenden Überprüfungen automatisch die entsprechenden Metadaten und die Herkunft in Microsoft Purview entfernt.
Einnahme
Die Erfassung ist der Prozess, der Data Map mit Metadaten auffüllt, die über die verschiedenen Prozesse gesammelt wurden.
Hinweis
Die kombinierte Anzahl aller untergeordneten Objekte (verwiesene Entitäten) und Kontakte (Besitzer, Experte) darf 20.000 Entitäten nicht überschreiten.
Erfassung aus Überprüfungen
Der Überprüfungsprozess identifiziert technische Metadaten oder Klassifizierungen und sendet sie an die Erfassung. Die Erfassung analysiert die Eingaben aus der Überprüfung, wendet Ressourcensatzmuster an, füllt verfügbare Herkunftsinformationen auf und lädt dann automatisch Data Map. Sie können Ressourcen und Schemas erst ermitteln oder zusammenstellen, nachdem die Erfassung abgeschlossen ist. Wenn die Überprüfung abgeschlossen ist, Ihre Ressourcen aber nicht in der Data Map oder im Katalog angezeigt werden, müssen Sie warten, bis der Erfassungsprozess abgeschlossen ist.
Erfassung aus Herkunftsverbindungen
Sie können Ressourcen wie Azure Data Factory und Azure Synapse mit Microsoft Purview verbinden, um Datenquellen- und Herkunftsinformationen in Data Map zu integrieren. Wenn beispielsweise eine Kopierpipeline in einer Azure Data Factory ausgeführt wird, die Sie mit Microsoft Purview verbunden haben, erfasst der Dienst Metadaten zu den Eingabequellen, der Aktivität und den Ausgabequellen. Die Informationen werden Data Map hinzugefügt.
Wenn Sie Data Map über eine Überprüfung eine Datenquelle hinzufügen, werden die Herkunftsinformationen zur Aktivität der vorhandenen Quelle hinzugefügt. Wenn Sie die Datenquelle noch nicht zu Data Map hinzugefügt haben, fügt der Datenherkunftserfassungsprozess sie der Stammsammlung mit ihren Herkunftsinformationen hinzu.
Weitere Informationen zu den verfügbaren Herkunftsverbindungen finden Sie im Benutzerhandbuch zur Herkunft.
Nächste Schritte
Weitere Informationen oder spezifische Anweisungen zum Überprüfen von Quellen finden Sie unter den folgenden Links.