Native Unterstützung der Datenqualität für das Iceberg-Format (Vorschau)

Die native Microsoft Purview-Unterstützung für das Open Table-Format von Apache Iceberg befindet sich in der öffentlichen Vorschau. Microsoft Purview-Kunden, die Microsoft Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Amazon Web Services (AWS) S3 und Google Cloud Platform (GCP) Google Cloud Storage (GCS) verwenden, können jetzt Microsoft Purview zum Zusammenstellen, Steuern und Durchführen von Datenintegritätskontrollen und Datenqualitätsbewertungen für Iceberg-Datenressourcen verwenden.

Iceberg-Dateistruktur

Eine Iceberg-Tabelle ist mehr als nur eine Sammlung von Datendateien. Es enthält verschiedene Metadatendateien, die den Zustand der Tabelle nachverfolgen und Vorgänge wie Lese-, Schreib- und Schemaentwicklung erleichtern. In den folgenden Abschnitten werden die kritischen Komponenten untersucht, die an einer Iceberg-Tabelle beteiligt sind. Die Datendateien in einer Iceberg-Tabelle werden in der Regel in spaltenbasierten Formaten wie Apache Parquet, Apache Avro oder Apache Optimized Row Columnar (ORC) gespeichert. Diese Dateien enthalten die tatsächlichen Daten, mit denen Benutzer während Abfragen interagieren.

Iceberg-Katalog

Oben befindet sich der Iceberg-Katalog, in dem der aktuelle Metadatenzeiger für jede Tabelle gespeichert wird. Dieser Katalog ermöglicht die Nachverfolgung des letzten Zustands einer Tabelle durch Verweisen auf die aktuelle Metadatendatei.

Metadatenebene

Die Metadatenebene ist von zentraler Bedeutung für die Funktionalität von Iceberg und besteht aus mehreren Schlüsselelementen:

Metadatendatei: Diese Datei enthält Informationen zum Schema, zur Partitionierung und zu Momentaufnahmen der Tabelle. Im Diagramm bezieht sich s0 auf eine Momentaufnahme, bei der es sich im Wesentlichen um einen Datensatz des Zustands der Tabelle zu einem bestimmten Zeitpunkt handelt. Wenn mehrere Momentaufnahmen vorhanden sind, z. B. s0 und s1, verfolgt die Metadatendatei beides nach.
Manifestliste: Diese Liste verweist auf eine oder mehrere Manifestdateien. Eine Manifestliste fungiert als Container mit Verweisen auf diese Manifeste und hilft Iceberg dabei, effizient zu verwalten, welche Datendateien während verschiedener Vorgänge gelesen oder geschrieben werden sollen. Jede Momentaufnahme kann über eine eigene Manifestliste verfügen.

Datenebene

Auf der Datenebene fungieren die Manifestdateien als Vermittler zwischen den Metadaten und den eigentlichen Datendateien. Jede Manifestdatei verweist auf eine Sammlung von Datendateien und stellt eine Zuordnung der physischen Dateien bereit, die im Data Lake gespeichert sind.

Manifestdateien: Diese Dateien speichern die Metadaten für eine Gruppe von Datendateien, einschließlich Zeilenanzahl, Partitionsinformationen und Dateipfade. Sie ermöglichen Es Iceberg, bestimmte Dateien schnell zu löschen und darauf zuzugreifen, was eine effiziente Abfrage ermöglicht.
Datendateien: Die tatsächlichen Daten befinden sich in diesen Dateien, die sich in Formaten wie Parquet, ORC oder Avro befinden können. Iceberg organisiert Datendateien basierend auf Partitionen und ermöglicht Leistungsoptimierungen während der Abfrageausführung, indem unnötige Datenscans minimiert werden.

Wie es zusammen funktioniert

Wenn Sie einen Vorgang wie eine Abfrage oder ein Update ausführen, sucht Iceberg zuerst die Metadatendatei der Tabelle über den Katalog. Die Metadatendatei verweist auf die aktuelle Momentaufnahme (oder mehrere Momentaufnahmen), die dann auf die Manifestliste verweist. Die Manifestliste enthält Verweise auf die Manifestdateien, die wiederum die einzelnen Datendateien auflisten. Diese hierarchische Struktur ermöglicht es Iceberg, große Datasets effizient zu verwalten und gleichzeitig Transaktionskonsistenz zu gewährleisten und Features wie Zeitreise und Schemaentwicklung zu ermöglichen.

Dieser mehrschichtige Entwurf verbessert die Leistung und Skalierbarkeit von Batch- und Streamingvorgängen, da nur auf die erforderlichen Datendateien zugegriffen wird und Updates über Momentaufnahmen verwaltet werden, ohne das gesamte Dataset zu beeinträchtigen.

Eisbergdaten in OneLake

Sie können Iceberg-formatierte Daten nahtlos in Microsoft Fabric ohne Datenverschiebung oder Duplizierung nutzen. Verwenden Sie OneLake-Tastenkombinationen, um direkt auf eine Datenebene zu verweisen.

Iceberg-Daten werden in OneLake gespeichert und mit Snowflake oder einem anderen Iceberg Writer geschrieben. OneLake virtualisiert die Tabelle als Delta Lake-Tabelle und stellt so eine breite Kompatibilität zwischen Fabric-Engines sicher. Beispielsweise können Sie ein Volume in Snowflake erstellen und direkt auf fabric Lakehouse verweisen. Nachdem die Tabelle in Fabric OneLake erstellt wurde, stellt die automatische Synchronisierung sicher, dass alle Datenaktualisierungen in Echtzeit widerspiegelt werden. Dieser optimierte Prozess erleichtert die Arbeit mit Iceberg-Daten in Microsoft Fabric. Weitere Informationen finden Sie in der Snowflake-Dokumentation.

Wichtig

Iceberg-Daten in AWS S3 und GCS müssen auch automatisch als Delta synchronisiert werden, um die Datenqualität zu kuratieren, zu steuern und zu messen und zu überwachen.

Datenqualität für Iceberg-Daten

Konfigurieren Sie für alle Benutzer, die Daten in Iceberg auf Parquet, ORC oder Avro auf Data Lake Storage Gen2 oder Fabric Lakehouse nativ aktivieren, eine Überprüfung, die auf den Speicherort des Verzeichnisses verweist, das die Iceberg-Verzeichnisse für Daten und Metadaten hostet. Führen Sie die unten aufgeführten Schritte aus:

Konfigurieren und Ausführen einer Überprüfung in Microsoft Purview Data Map.
Konfigurieren Sie das Verzeichnis, in dem Daten und Metadaten gehostet werden, als Datenressource, und ordnen Sie es einem Datenprodukt zu. Dieser Schritt bildet das Iceberg-Dataset. Zuordnen von Iceberg-Datenressourcen zu einem Datenprodukt in Microsoft Purview Unified Catalog. Erfahren Sie , wie Sie Einem Datenprodukt Datenressourcen zuordnen.
Wählen Sie in Unified Catalog unter Integritätsverwaltung die Option Datenqualitätsansicht aus, um Ihre Iceberg-Dateien (Datenasset) zu finden und eine Datenquellenverbindung einzurichten.
1. Führen Sie zum Einrichten einer Data Lake Storage Gen2 Verbindung die Schritte unter Einrichten der Datenquellenverbindung für die Datenqualität aus.
2. Führen Sie zum Einrichten einer Fabric OneLake-Verbindung die Schritte unter Einrichten der Datenqualität für Fabric Lakehouse-Daten aus.
Wenden Sie Datenqualitätsregeln an, und führen Sie Datenqualitätsscans für die Datenqualitätsbewertung auf Spalten- und Tabellenebene durch.
Wählen Sie auf der Seite Schema der ausgewählten Iceberg-Datei (Datenasset) schema importieren aus, um das Schema aus der Datenquelle der Iceberg-Datei zu importieren.
Bevor Sie den Profilerstellungsauftrag oder den Auftrag zur Überprüfung der Datenqualität ausführen, wechseln Sie zur Seite Übersicht der Iceberg-Datei, und wählen Sie im Dropdownmenü Datenobjektdie Option Iceberg aus.

Profilerstellung und Datenqualitätsüberprüfung

Nachdem Sie die Verbindungseinrichtung und die Auswahl des Dateiformats für datenassetobjekte abgeschlossen haben, können Sie ein Profil für Ihre Daten erstellen, Regeln erstellen und anwenden und eine Datenqualitätsüberprüfung Ihrer Daten in Iceberg-Dateien im offenen Format ausführen. Befolgen Sie die Schritt-für-Schritt-Anleitung in diesen Artikeln:

Wichtig

Die Unterstützung für das offene Iceberg-Format für die Katalogermittlung, Zusammenstellung, Datenprofilerstellung und Datenqualitätsüberprüfung befindet sich in der Vorschauphase.
Für die Datenprofilerstellung und die Bewertung der Datenqualität müssen Sie das Schema von der Seite Data Quality Schema abrufen und festlegen.
Consumerermittlungserfahrung: Consumer sehen das Schema nicht in der Datenobjektansicht, da Data Map das Offene Iceberg-Tabellenformat noch nicht unterstützt. Data Quality-Stewards können das Schema von der Seite Data Quality-Schema importieren.

Begrenzungen

Das aktuelle Release unterstützt nur Daten, die im Iceberg-Format mit dem Apache Hadoop-Katalog erstellt wurden.

Lakehouse-Pfad und Data Lake Storage Gen2-Pfad

Iceberg Metadata speichert den vollständigen Pfad für die Daten und Metadaten. Stellen Sie sicher, dass Sie den vollständigen Pfad für Data Lake Storage Gen2 und Fabric Lakehouse verwenden. Stellen Sie außerdem für den Fabric Lakehouse-Pfad während des Schreibvorgangs den Betrieb (WRITES, UPSERTS) mit den ID-Pfaden sicher. abfss://c4dd39bb-77e2-43d3-af10-712845dc2179@onelake.dfs.fabric.microsoft.com/5e8ea953-56fc-49c1-bc8c-0b3498cf1a9c/Files/CustomerData.
Dateisystem als ID und Lakehouse als ID. Absolute und keine relativen Pfade sind erforderlich, damit Microsoft Purview die Datenqualität auf Iceberg durchführen kann. Überprüfen Sie zur Überprüfung den Pfad der Momentaufnahmen so, dass er als vollständige FQN-Pfade (Fully Qualified Name) verweist.

Schemaerkennung

Data Map kann das Iceberg-Schema nicht erkennen. Beim Zusammenstellen der Iceberg-Verzeichnisse in Fabric Lakehouse oder Data Lake Storage Gen2 können Sie das Schema nicht überprüfen. Das Datenqualitäts-Abrufschema kann jedoch das Schema für das kuratierte Medienobjekt abrufen.

Empfehlungen

Wenn Sie SNOWFLAKE Catalog for Iceberg Format mit VOLUME-Speicher als Data Lake Storage Gen2, AWS S3 oder GCP GCS verwenden, verwenden Sie Fabric OneLake-Tabellenverknüpfung, und führen Sie die Datenqualität als DELTA-Tabelle aus. Unterstützt nur Iceberg mit Parquet-Dateiformat.
Wenn Sie Data Lake Storage Gen2 für Iceberg Format mit dem Hadoop-Katalog verwenden, scannen Sie das Verzeichnis direkt, und verwenden Sie die Data Quality-Engine als Standard für das Iceberg-Format für die Datenqualität. Unterstützt Iceberg mit parquet-, ORC- und Avro-Dateiformaten.
Wenn Sie das Snowflake for Iceberg-Format verwenden, können Sie den VOLUME-Speicher direkt auf den Fabric Lakehouse-Pfad verweisen und dann oneLake Table verwenden, um eine Delta-kompatible Version für die Datenqualität zu erstellen. Unterstützt nur Iceberg mit Parquet-Dateiformat.
Wenn Sie Fabric Lakehouse for Iceberg Format mit dem Hadoop-Katalog verwenden, scannen Sie das Lakehouse-Verzeichnis direkt, indem Sie die Data Quality-Engine als Standardeinstellung für das Iceberg-Format für die Datenqualität verwenden. Unterstützt Iceberg mit parquet-, ORC- und Avro-Dateiformaten.

Ressourcen

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-11