Freigeben über


Datenstandardisierung

Daten kommen in Data Lake-Konten in verschiedenen Formaten ein. Zu diesen Formaten gehören lesbare Formate wie JSON. CSV- oder XML-Dateien und komprimierte Binärformate wie .tar oder .gz. Eingehende Daten kommen in vielen Größen, von einigen bearbeiteten Dateien bis zu einem Export einer gesamten SQL-Tabelle. Daten können auch eine große Anzahl kleiner Dateien sein, die ein paar KB astück sind, z. B. Echtzeitereignisse aus einer IoT-Lösung.

Während Azure Data Lake Storage Gen2 die Speicherung für alle Arten von Daten ohne Einschränkungen unterstützt, sollten Sie Ihre Datenformate sorgfältig berücksichtigen, um die Verarbeitung der Pipelineeffizienz zu gewährleisten und Kosten zu optimieren.

Viele Organisationen standardisieren nun ihr Ingest-Format und trennen die Rechenleistung vom Speicher. Aus diesem Grund wurde das Delta Lake-Format zum bevorzugten Standard für die Datenaufnahme bis zur Anreicherungsschicht. Aus der Anreicherungsebene kann Ihr Datenanwendungsteam Daten in einem Format bereitstellen, das ihren Anwendungsfall widerspiegelt.

Hinweis

Verwenden Sie Delta Lake, um Batch- und Streaming-Anwendungsfälle für die anfängliche Datenaufnahme bis hin zur Anreicherungsebene zu unterstützen.

Dieser Artikel bietet eine Übersicht über Delta Lake, seine Leistung und wie sie Ihnen dabei hilft, Compliance-Unterstützung zu erreichen und wie Sie Ihre Daten standardisieren, während sie von Quelle zu Anreicherungsebene fließen.

Deltasee

Delta Lake ist eine Open-Source-Speicherschicht, die ACID-Transaktionen (Atomität, Konsistenz, Isolation und Haltbarkeit) zu Big Data-Workloads und Apache Spark bringt. Azure Databricks ist mit Linux Foundation Delta Lake kompatibel.

Wichtige Features des Delta Lake

Merkmal BESCHREIBUNG
ACID Transaktionen Data Lakes werden in der Regel mittels mehrerer Prozesse und Pipelines aufgefüllt, von denen einige Daten gleichzeitig mit Lesevorgängen schreiben. Datentechniker haben einen manuellen, fehleranfälligen Prozess durchlaufen, um die Datenintegrität sicherzustellen, bevor Delta Lake und Transaktionen verwendet wurden. Delta Lake sorgt für vertraute ACID-Transaktionen für Data Lakes. Es bietet die stärkste Isolationsstufe, Serialisierbarkeit. Weitere Informationen finden Sie unter Tauchen in delta Lake: Entpacken des Transaktionsprotokolls.
Skalierbare Metadatenverarbeitung In Big Data können sogar Metadaten "Big Data" sein. Delta Lake behandelt Metadaten genauso wie andere Daten. Es verwendet die verteilte Verarbeitungsleistung von Spark, um alle Metadaten zu verarbeiten. Aus diesem Grund kann Delta Lake Tabellen im Petabyte-Maßstab mit Milliarden von Partitionen und Dateien problemlos verarbeiten.
Time Travel (Datenversionsverwaltung) Die Möglichkeit, eine Änderung rückgängig zu machen oder zu einer früheren Version zurückzukehren, ist ein wichtiges Feature von Transaktionen. Delta Lake stellt Momentaufnahmen von Daten bereit, mit denen Sie auf frühere Versionen von Daten für Audits, Rollbacks oder zur Reproduktion von Experimenten zurückwechseln können. Weitere Informationen finden Sie unter Einführung von Delta Lake Time Travel für große Data Lakes.
Offenes Format Apache Laminat, das Basisformat für Delta Lake, ermöglicht Es Ihnen, effiziente Komprimierungs- und Codierungsschemas anzuwenden.
Einheitliche Batch-und Streaming-Quelle und -senke Eine Tabelle in Delta Lake ist gleichzeitig eine Stapeltabelle sowie eine Streaming-Quelle und -Senke. Die Erfassung von Streamingdaten, historischer Batchvergleich und interaktive Abfragen funktionieren alle standardmäßig.
Schemadurchsetzung Durch die Schemaerzwingung können Sie sicherstellen, dass Sie über korrekte Datentypen und erforderliche Spalten verfügen, was Dateninkonsistenzen durch fehlerhafte Daten verhindert. Weitere Informationen finden Sie unter Einstieg I Delta Lake: Schemadurchsetzung und & Schemaentwicklung
Schemaentwicklung Mit Delta Lake können Sie automatisch angewendete Änderungen an einem Tabellenschema vornehmen, ohne die Migrations-DDL schreiben zu müssen. Weitere Informationen finden Sie unter Einstieg I Delta Lake: Schemadurchsetzung und & Schemaentwicklung
Überwachungsverlauf Das Delta Lake-Transaktionsprotokoll zeichnet Details zu jeder Änderung auf, die an Ihren Daten vorgenommen wurde. Diese Datensätze stellen einen vollständigen Überwachungspfad aller Änderungen bereit.
Aktualisierungen und Löschungen Delta Lake unterstützt Scala-, Java-, Python- und SQL-APIs für verschiedene Funktionen. Unterstützung für Zusammenführungs-, Aktualisierungs- und Löschvorgänge unterstützt Sie bei der Einhaltung der Complianceanforderungen. Weitere Informationen finden Sie unter Ankündigung der Version Delta Lake 0.6.1, Ankündigung der Version Delta Lake 0.7 sowie einfache, zuverlässige Upserts und Deletes auf Delta Lake Tables mithilfe von Python-APIs (einschließlich Codeausschnitte zum Zusammenführen, Aktualisieren und Löschen von DML-Befehlen).
100% kompatibel mit Apache Spark API Ihre Entwickler können Delta Lake mit minimalen Änderungen an ihren vorhandenen Datenpipelines verwenden, da sie vollständig mit vorhandenen Spark-Implementierungen kompatibel ist.

Weitere Informationen finden Sie unter Delta Lake-Projekt.

Vollständige Dokumentation finden Sie auf der Dokumentationsseite des Delta Lake

Leistung

Die Verwendung vieler kleiner Dateien führt häufig zu einer suboptimalen Leistung und höheren Kosten durch erhöhte Lese-/Listenvorgänge. Azure Data Lake Storage Gen2 ist für größere Dateien optimiert, mit denen Ihre Analyseaufträge schneller und mit niedrigeren Kosten ausgeführt werden können.

Delta Lake enthält viele Features, mit denen Sie die Leistung mit der Dateiverwaltung optimieren können.

Beispiele sind:

  • Das Transaktionsprotokoll minimiert teure LIST-Operationen.
  • Z-Reihenfolge (multidimensionale Clustering) ermöglicht optimiertes Prädikat-Pushdown für Ihre Abfragefilter.
  • Systemeigene Zwischenspeicherungs- und Abfrageoptimierungen reduzieren die Menge der erforderlichen Speicherüberprüfungen. Weitere Informationen finden Sie unter Optimieren der Leistung mit Zwischenspeicherung.
  • OPTIMIZE gliedert kleine Dateien in größere Dateien zusammen.

Machen Sie diese Optimierungen teil Ihres Datenladevorgangs, um die Aktualität und Leistung der Daten aufrechtzuerhalten.

Partitionierung von Data Lake

Die Datenpartitionierung umfasst das Organisieren von Daten in Ihrem Datenspeicher, sodass Sie umfangreiche Daten verwalten und den Datenzugriff steuern können. Partitionierung kann die Skalierbarkeit verbessern, Konflikte reduzieren und die Leistung optimieren.

Achten Sie beim Partitionieren Ihres Data Lakes darauf, dass Ihr Aufbau:

  • Sicherheit wird nicht gefährdet
  • Verfügt über eine klare Isolierung und stimmt mit Ihrem Datenautorisierungsmodell überein.
  • Passt gut zu Ihrem Datenaufnahmeprozess
  • Verfügt über einen klar definierten Pfad für optimalen Datenzugriff
  • Unterstützt Verwaltungs- und Wartungsaufgaben

Allgemeine Methoden

Die allgemeinen Methoden für den Entwurf der Datenpartitionierung sind:

  • Konzentrieren Sie sich frühzeitig auf Ihre Sicherheitsimplikation, und entwerfen Sie Ihre Datenpartitionen zusammen mit der Autorisierung.
  • Möglicherweise möchten Sie Datenredundanz im Austausch für Sicherheit zulassen.- Definieren Sie eine Benennungskonvention, und halten Sie sie ein.
  • Sie können mehrere Ordner verschachteln, aber halten Sie immer deren Struktur konsistent.
  • Fügen Sie ein Zeitelement in Die Ordnerstrukturen und Dateinamen ein.
  • Starten Sie die Ordnerstruktur nicht mit Datumspartitionen. Es ist besser, Datumsangaben auf der unteren Ordnerebene beizubehalten.
  • Kombinieren Sie keine gemischten Dateiformate oder verschiedene Datenprodukte in einer einzelnen Ordnerstruktur.

Tipp

Ihre Ordnerstrukturen sollten Über Partitionierungsstrategien verfügen, mit denen Zugriffsmuster und geeignete Dateigrößen optimiert werden können. Planen Sie in den kuratierten Zonen die Struktur basierend auf einem optimalen Abruf. Seien Sie vorsichtig bei der Auswahl eines Partitionsschlüssels mit hoher Kardinalität, da dies zu einer Überpartitionierung und dadurch zu suboptimalen Dateigrößen führen kann.

Weitere Informationen zu Data-Lake-Zonen finden Sie unter Data-Lake-Zonen und Container

Complianceunterstützung

Delta Lake fügt eine Transaktionsschicht hinzu, um eine strukturierte Datenverwaltung über Ihrem Datensee bereitzustellen. Diese Ergänzung kann Ihre Fähigkeit zum Auffinden und Entfernen personenbezogener Informationen (auch bekannt als "personenbezogene Daten") auf Verbraucheranforderung erheblich vereinfachen und beschleunigen. Die Transaktionsebene unterstützt Vorgänge wie DELETE, UPDATE und MERGE. Weitere Informationen finden Sie unter Bewährte Methoden: DSGVO-Compliance mit Delta Lake.

Zusammenfassung

Wenden Sie die in diesem Artikel aufgeführten Datenstandardisierungen auf Ihre Plattform an. Beginnen Sie mit dem Delta Lake-Format, und beginnen Sie dann mit dem Hinzufügen von Prozessen zur Optimierung und Compliance. Sie können einen Dienst erstellen, der einige Ihrer Optimierungsrouten nach einem Zeitplan ausführt, oder einen Compliancedienst erstellen, der persönliche Informationen entfernt.

Nächste Schritte