Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden die unterstützten Datenquellen, Dateitypen und Überprüfungskonzepte in Microsoft Purview Data Map aufgeführt.
Datenquellenauflistung nach Typ
Die folgenden Tabellen zeigen alle Datenquellen mit technischen Metadaten, die in Microsoft Purview Data Map verfügbar sind, zusammen mit anderen unterstützten Funktionen. Wählen Sie in der Spalte Datenquelle einen Datenquellennamen aus, um Anweisungen zum Herstellen einer Verbindung zwischen dieser Quelle und Data Map zu erhalten.
Azure
Azure Ressourcen sind nur im selben Mandanten wie Ihr Microsoft Purview-Konto verfügbar, sofern nicht auf der Seite jeder Datenquelle anders angegeben.
| Datenquelle | Kann Klassifizierungen automatisch anwenden | Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden | Kann Richtlinien anwenden | Datenherkunft | Zugriff in der Liveansicht |
|---|---|---|---|---|---|
| Wählen Sie link für Verbindungs- und Scananweisungen aus. | Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden. | Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau). | Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz. | Wählen Sie Ja aus, um Details anzuzeigen. | Erfahren Sie mehr über die Liveansicht. |
| Mehrere Quellen | Ja | Quellenabhängig | Ja | Nein | Eingeschränkt |
| Azure Blob Storage | Ja | Ja | Ja (Vorschau) | Eingeschränkt* | Ja |
| Azure Cosmos DB for SQL-API | Ja | Ja | Nein | Nein* | Nein |
| Azure Data Explorer | Ja | Ja | Nein | Nein* | Nein |
| Azure Data Factory | Nein | Nein | Nein | Ja | Nein |
| Azure Data Lake Storage Gen2 | Ja | Ja | Ja (Vorschau) | Eingeschränkt* | Ja |
| Azure Data Share | Nein | Nein | Nein | Ja | Nein |
| Azure-Datenbank für MySQL | Ja | Ja | Nein | Nein* | Nein |
| Azure-Datenbank für PostgreSQL | Ja | Ja | Nein | Nein* | Nein |
| Azure Databricks Hive Metastore | Nein | Nein | Nein | Ja | Nein |
| Azure Databricks Unity Catalog | Ja | Ja | Nein | Ja | Nein |
| Azure Dedicated SQL-Pool (ehemals SQL DW) | Ja | Nein | Nein | Nein* | Nein |
| Azure Files | Ja | Ja | Nein | Eingeschränkt* | Nein |
| Azure Machine Learning | Nein | Nein | Nein | Ja | Nein |
| Azure SQL-Datenbank | Ja | Ja | Ja | Ja (Vorschau) | Ja |
| Azure SQL Managed Instance | Ja | Ja | Ja | Nein* | Nein |
| Azure Synapse Analytics (Arbeitsbereich) | Ja | Ja | Nein | Ja– Synapse-Pipelines | Nein |
* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.
Datenbank
| Datenquelle | Kann Klassifizierungen automatisch anwenden | Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden | Kann Richtlinien anwenden | Datenherkunft | Zugriff in der Liveansicht |
|---|---|---|---|---|---|
| Wählen Sie link für Verbindungs- und Scananweisungen aus. | Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden. | Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau). | Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz. | Wählen Sie Ja aus, um Details anzuzeigen. | Erfahren Sie mehr über die Liveansicht. |
| Amazon RDS | Ja | Nein | Nein | Nein | Nein |
| Amazon Redshift | Nein | Nein | Nein | Nein | Nein |
| Cassandra | Nein | Nein | Nein | Ja | Nein |
| Db2 | Nein | Nein | Nein | Ja | Nein |
| Google BigQuery | Nein | Nein | Nein | Ja | Nein |
| Hive-Metastore-Datenbank | Nein | Nein | Nein | Ja* | Nein |
| MongoDB | Nein | Nein | Nein | Nein | Nein |
| MySQL | Nein | Nein | Nein | Ja | Nein |
| Oracle | Ja | Nein | Nein | Ja* | Nein |
| PostgreSQL | Nein | Nein | Nein | Ja | Nein |
| SAP Business Information Warehouse | Nein | Nein | Nein | Nein | Nein |
| SAP HANA | Nein | Nein | Nein | Nein | Nein |
| Schneeflocke | Ja | Ja | Nein | Ja* | Nein |
| SQL Server | Ja | Ja | Nein | Nein* | Nein |
| SQL Server auf Azure-Arc | Ja | Nein | Ja | Nein* | Nein |
| Teradata | Ja | Nein | Nein | Ja* | Nein |
* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.
File
| Datenquelle | Kann Klassifizierungen automatisch anwenden | Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden | Kann Richtlinien anwenden | Datenherkunft | Zugriff in der Liveansicht |
|---|---|---|---|---|---|
| Wählen Sie link für Verbindungs- und Scananweisungen aus. | Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden. | Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau). | Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz. | Wählen Sie Ja aus, um Details anzuzeigen. | Erfahren Sie mehr über die Liveansicht. |
| Amazon S3 | Ja | Ja | Nein | Eingeschränkt* | Nein |
| Hadoop Distributed File System (HDFS) | Ja | Nein | Nein | Nein | Nein |
* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.
Dienste und Apps
| Datenquelle | Kann Klassifizierungen automatisch anwenden | Kann Vertraulichkeitsbezeichnungen auf Data Map-Ressourcen anwenden | Kann Richtlinien anwenden | Datenherkunft | Zugriff in der Liveansicht |
|---|---|---|---|---|---|
| Wählen Sie link für Verbindungs- und Scananweisungen aus. | Wählen Sie Ja für Scananweisungen aus. Erfahren Sie, wie Klassifizierungen während der Überprüfung angewendet werden. | Erfahren Sie mehr über Vertraulichkeitsbezeichnungen (Vorschau). | Wählen Sie Ja aus, um unterstützte Richtlinien anzuzeigen. Beispielsweise Datenbesitzer, Self-Service-Zugriff oder Schutz. | Wählen Sie Ja aus, um Details anzuzeigen. | Erfahren Sie mehr über die Liveansicht. |
| Luftstrom | Nein | Nein | Nein | Ja | Nein |
| Datenumkehr | Ja | Ja | Nein | Nein | Nein |
| Erwin | Nein | Nein | Nein | Ja | Nein |
| Stoff | Nein | Nein | Nein | Ja | Ja |
| Looker | Nein | Nein | Nein | Ja | Nein |
| Power BI | Nein | Nein | Nein | Ja | Ja** |
| Qlik Sense | Nein | Nein | Nein | Nein | Nein |
| Salesforce | Nein | Nein | Nein | Nein | Nein |
| SAP ECC | Nein | Nein | Nein | Ja* | Nein |
| SAP S/4HANA | Nein | Nein | Nein | Ja* | Nein |
| Tableau | Nein | Nein | Nein | Nein | Nein |
* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.
** Power BI-Elemente in einem Fabric-Mandanten sind über die Liveansicht verfügbar.
Hinweis
Derzeit kann der Microsoft Purview Data Map keine Medienobjekte scannen, die /, \oder # im Namen enthalten sind. Verwenden Sie das Beispiel unter Registrieren und Überprüfen einer Azure SQL-Datenbank, um den Umfang Ihrer Überprüfung zu erweitern und die Überprüfung von Ressourcen zu vermeiden, die diese Zeichen im Ressourcennamen enthalten.
Wichtig
Wenn Sie eine selbstgehostete Integration Runtime verwenden möchten, erfordert das Überprüfen einiger Datenquellen eine zusätzliche Einrichtung auf dem Computer mit der selbstgehosteten Integration Runtime. Beispielsweise JDK, Microsoft Visual C++ Redistributable oder ein bestimmter Treiber. Informationen zu Ihrer Quelle finden Sie in jedem Quellartikel, um details zu den Voraussetzungen zu erhalten. Alle Anforderungen sind im Abschnitt Voraussetzungen aufgeführt.
Data Map-Scannerregionen
In der folgenden Liste sind alle Azure Datenquellenregionen (Rechenzentrum) aufgeführt, in denen der Data Map-Scanner ausgeführt wird. Wenn sich Ihre Azure Datenquelle in einer Region außerhalb dieser Liste befindet, wird der Scanner in der Region Ihres Microsoft Purview-instance ausgeführt.
- Australien (Osten)
- Australien (Südosten)
- Brasilien Süd
- Kanada, Mitte
- Kanada, Osten
- Indien, Mitte
- China, Norden 3
- Ostasien
- USA (Osten)
- USA (Osten) 2
- Frankreich, Mitte
- Deutschland, Westen-Mitte
- Japan Osten
- Korea zentral
- USA (Norden, Mitte)
- Nordeuropa
- Katar, Mitte
- Süd-Afrika Nord
- USA (Süden, Mitte)
- Südostasien
- Schweiz Nord
- VAE Nord
- Vereinigtes Königreich (Süden)
- USGov Virginia
- USA (Westen, Mitte)
- Westeuropa
- USA (Westen)
- USA (Westen) 2
- USA, Westen 3
Für die Überprüfung unterstützte Dateitypen
Die im folgenden Abschnitt aufgeführten Dateitypen unterstützen ggf. die Überprüfung, Schemaextraktion und Klassifizierung. Darüber hinaus unterstützt Data Map benutzerdefinierte Dateierweiterungen und benutzerdefinierte Parser.
Strukturierte Dateiformate, die von der Erweiterung unterstützt werden, umfassen Scannen, Schemaextraktion und Klassifizierung auf Ressourcen- und Spaltenebene:
- AVRO
- CSV
- GZIP
- JSON
- ORK
- PARKETT*
- PSV
- SSV
- TSV
- TXT
- XML
*Für nicht komprimierte PARQUET-Dateien werden alle Parquet-Formate unterstützt. Für komprimierte PARQUET-Dateien wird nur das Snappy-Parquet-Format unterstützt.
Dokumentdateiformate, die von der Erweiterung unterstützt werden, umfassen die Überprüfung und die Klassifizierung auf Ressourcenebene:
- DOKTOR
- DOCM
- DOCX
- PUNKT
- ODP
- ODS
- ODT
- TOPF
- PPS
- PPSX
- PPT
- PPTM
- PPTX
- XLC
- XLS
- XLSB
- XLSM
- XLSX
- XLT
Hinweis
Bekannte Einschränkungen:
- Der Microsoft Purview Data Map-Scanner unterstützt nur die Schemaextraktion für die im vorherigen Abschnitt aufgeführten strukturierten Dateitypen.
- Für AVRO-, ORC- und PARQUET-Dateitypen unterstützt der Scanner keine Schemaextraktion für Dateien, die komplexe Datentypen (z. B. MAP, LIST, STRUCT) enthalten.
- Für nicht komprimierte PARQUET-Dateien werden alle Parquet-Formate unterstützt. Für komprimierte PARQUET-Dateien wird nur das Snappy-Parquet-Format für die Schemaextraktion und -klassifizierung unterstützt.
- Bei GZIP-Dateitypen muss das GZIP einer einzelnen CSV-Datei in zugeordnet werden. GZIP-Dateien unterliegen System- und benutzerdefinierten Klassifizierungsregeln. Der Scanner unterstützt derzeit das Scannen einer GZIP-Datei, die mehreren Dateien zugeordnet ist, oder keinem anderen Dateityp als CSV.
- Wenn Sie für Parquet-Dateien eine selbstgehostete Integration Runtime verwenden, müssen Sie die 64-Bit-JRE 11 (Java Runtime Environment) oder OpenJDK auf Ihrem IR-Computer installieren. Weitere Informationen finden Sie im Installationshandbuch zur Java-Runtime.
- Das Delta-Format wird nicht unterstützt. Wenn Sie das Delta-Format direkt aus einer Speicherdatenquelle wie Microsoft Azure Data Lake Storage Gen2 überprüfen, werden die Parquet-Dateien aus dem Delta-Format analysiert und als Ressourcensatz behandelt, wie unter Grundlegendes zu Ressourcensätzen beschrieben. Die für die Partitionierung verwendeten Spalten werden nicht als Teil des Schemas für den Ressourcensatz erkannt.
Für Dateitypen mit Trennzeichen (CSV, PSV, SSV, TSV, TXT):
- Durch Trennzeichen getrennte Dateien mit nur einer Spalte können nicht als CSV-Dateien bestimmt werden und haben kein Schema.
- Die Datentyperkennung wird nicht unterstützt. Der Datentyp wird für alle Spalten als "Zeichenfolge" aufgeführt.
- Die einzigen unterstützten Trennzeichen sind kommma(','), semikolon(';'), vertical bar('|') und tab('\t').
- Durch Trennzeichen getrennte Dateien mit weniger als drei Zeilen können nicht als CSV-Dateien bestimmt werden, wenn sie ein benutzerdefiniertes Trennzeichen verwenden. Beispielsweise können Dateien mit ~-Trennzeichen und weniger als drei Zeilen nicht als CSV-Dateien bestimmt werden.
- Wenn ein Feld doppelte Anführungszeichen enthält, können die doppelten Anführungszeichen nur am Anfang und Ende des Felds angezeigt werden und müssen übereinstimmen. Doppelte Anführungszeichen, die in der Mitte des Felds oder am Anfang und Ende angezeigt werden, aber nicht übereinstimmen, werden als ungültige Daten erkannt, und es wird kein Schema aus der Datei analysiert. Zeilen, die eine andere Spaltenanzahl als die Kopfzeile aufweisen, werden als Fehlerzeilen bewertet. Die Anzahl der Fehlerzeilen dividiert durch die Anzahl der stichprobenierten Zeilen muss kleiner als 0,1 sein.
Schemaextraktion
Bei Datenquellen, die die Schemaextraktion während der Überprüfung unterstützen, wird das Ressourcenschema durch die Anzahl der Spalten nicht direkt abgeschnitten.
Geschachtelte Daten
Geschachtelte Daten werden nur für JSON-Inhalte unterstützt. Wenn in einer Spalte geschachtelter JSON-Inhalt vorhanden ist, analysiert der Scanner für alle vom System unterstützten Dateitypen die geschachtelten JSON-Daten und zeigt sie auf der Schemaregisterkarte des Medienobjekts an.
Geschachtelte Daten oder geschachtelte Schemaanalyse werden in SQL nicht unterstützt. Eine Spalte mit geschachtelten Daten wird gemeldet und klassifiziert, und Unterdaten werden nicht analysiert.
Samplingdaten für die Klassifizierung
In der Data Map-Terminologie:
- L1-Scan: Extrahiert grundlegende Informationen und Metadaten wie Dateiname, Größe und vollqualifizierter Name.
- L2-Überprüfung: Extrahiert das Schema für strukturierte Dateitypen und Datenbanktabellen.
- L3-Überprüfung: Extrahiert ggf. das Schema und unterzieht die stichprobenierte Datei system- und benutzerdefinierten Klassifizierungsregeln.
Erfahren Sie mehr über das Anpassen der Scanebenen.
Für alle strukturierten Dateiformate werden dateien im Microsoft Purview Data Map Scanner wie folgt beschrieben:
- Bei strukturierten Dateitypen werden die ersten 128 Zeilen in jeder Spalte oder die ersten 1 MB( je nachdem, welcher Wert niedriger ist) entnommen.
- Bei Dokumentdateiformaten werden die ersten 20 MB jeder Datei als Stichprobe verwendet. - Wenn eine Dokumentdatei größer als 20 MB ist, führt der Scanner keinen tiefen Scan durch (vorbehaltlich der Klassifizierung). In diesem Fall erfasst Microsoft Purview nur grundlegende Metadaten wie Dateiname und vollqualifizierter Name.
- Für tabellarische Datenquellen (SQL) werden die ersten 128 Zeilen entnommen.
- Für Azure Cosmos DB for NoSQL werden bis zu 300 unterschiedliche Eigenschaften aus den ersten 10 Dokumenten in einem Container für das Schema gesammelt. Für jede Eigenschaft nimmt der Scanner Werte von bis zu 128 Dokumenten oder den ersten 1 MB ab.
Stichprobenerstellung für Ressourcensatzdateien
Wenn ein Ordner oder eine Gruppe von Partitionsdateien einer Systemressourcensatzrichtlinie oder einer benutzerdefinierten Ressourcensatzrichtlinie entspricht, erkennt Data Map dies als Ressourcensatz. Wenn der Scanner einen Ressourcensatz erkennt, wird ein Stichproben für jeden enthaltenen Ordner verwendet. Weitere Informationen zu Ressourcensätzen finden Sie unter Ressourcensätze in Microsoft Purview Data Map.
Dateisampling für Ressourcensätze nach Dateitypen:
- Durch Trennzeichen getrennte Dateien (CSV, PSV, SSV, TSV): Der Scanner untersucht 1 von 100 Dateien (L3-Scan) in einem Ordner oder einer Gruppe von Partitionsdateien, die als Ressourcensatz betrachtet werden.
- Data Lake-Dateitypen (Parquet, Avro, Orc): Der Scanner untersucht 1 von 18.446.744.073.709.551.615 Dateien (L3-Überprüfung) in einem Ordner oder einer Gruppe von Partitionsdateien, die als Ressourcensatz betrachtet werden.
- Andere strukturierte Dateitypen (JSON, XML, TXT): Der Scanner untersucht 1 von 100 Dateien (L3-Scan) in einem Ordner oder einer Gruppe von Partitionsdateien, die als Ressourcensatz betrachtet werden.
- SQL-Objekte und Azure Cosmos DB-Entitäten: Der Scanner L3 überprüft jede Datei.
- Dokumentdateitypen: Der Scanner L3 scannt jede Datei. Ressourcensatzmuster gelten nicht für diese Dateitypen.