Data Engineering mit Databricks

Databricks bietet Lakeflow, eine End-to-End Data Engineering-Lösung, mit der Dateningenieure, Softwareentwickler, SQL-Entwickler, Analysten und Data Scientists qualitativ hochwertige Daten für downstream-Analysen, KI und betriebliche Anwendungen bereitstellen können. Lakeflow ist eine einheitliche Lösung für Aufnahme, Transformation und Orchestrierung Ihrer Daten und umfasst Lakeflow Connect, Lakeflow Spark Declarative Pipelines und Lakeflow Jobs.

Lakeflow Connect

Lakeflow Connect vereinfacht die Datenaufnahme mit Connectors zu beliebten Unternehmensanwendungen, Datenbanken, Cloudspeicher, Nachrichtenbussen und lokalen Dateien. Weitere Informationen finden Sie unter LakeFlow Connect.

Merkmal	BESCHREIBUNG
Verwaltete Connectors	Verwaltete Connectors bieten eine einfache Benutzeroberfläche und einen konfigurationsbasierten Aufnahmedienst mit minimalem Betriebsaufwand, ohne dass Sie die zugrunde liegenden Pipeline-APIs und -Infrastruktur verwenden müssen.
Standard-Steckverbinder	Standard-Connectors ermöglichen den Zugriff auf Daten aus einer breiteren Palette von Datenquellen innerhalb Ihrer Pipelines oder anderer Abfragen.

Lakeflow Spark Declarative Pipelines (SDP)

Lakeflow Spark Declarative Pipelines oder SDP ist ein deklaratives Framework, das die Komplexität beim Erstellen und Verwalten effizienter Batch- und Streamingdatenpipelines verringert. Lakeflow SDP erweitert und ist mit Apache Spark Declarative Pipelines kompatibel, während sie auf der leistungsoptimierten Databricks Runtime ausgeführt wird. SDP koordiniert automatisch die Ausführung von Flüssen, Senken, Streamingtabellen und materialisierten Ansichten durch Kapselung und Ausführung als Pipeline. Siehe Lakeflow Spark Declarative Pipelines.

Merkmal	BESCHREIBUNG
Ströme	Abläufe verarbeiten Daten in Pipelines. Die Flows-API verwendet dieselbe DataFrame-API wie Apache Spark und Structured Streaming. Ein Flow kann mithilfe der Streamingsemantik in Streamingtabellen und Senken schreiben, z. B. ein Kafka-Thema, oder mithilfe von Batchsemantik in eine materialisierte Sicht.
Streamingtabellen	Eine Streamingtabelle ist eine Delta-Tabelle mit zusätzlicher Unterstützung für Streaming oder inkrementelle Datenverarbeitung. Sie dient als Ziel für einen oder mehrere Flüsse in Pipelines.
Materialisierte Ansichten	Eine materialisierte Ansicht ist eine Ansicht mit zwischengespeicherten Ergebnissen für einen schnelleren Zugriff. Eine materialisierte Ansicht dient als Ziel für Pipelines.
Waschbecken	Pipelines unterstützen externe Datensenken als Ziele. Diese Senken können Ereignisstreamingdienste wie Apache Kafka oder Azure Event Hubs, externe Tabellen enthalten, die von Unity Catalog verwaltet werden, oder benutzerdefinierte Senken, die in Python definiert sind.

Lakeflow-Aufträge

Lakeflow Jobs bieten zuverlässige Orchestrierung und Produktionsüberwachung für alle Daten und KI-Arbeitsauslastungen. Ein Auftrag kann aus einer oder mehreren Aufgaben bestehen, die Notebooks, Pipelines, verwaltete Connectors, SQL-Abfragen, Machine Learning-Training sowie Modellimplementierungen und Rückschlüsse ausführen. Aufträge unterstützen auch die benutzerdefinierte Ablaufsteuerungslogik, wie z. B. Verzweigungen mit „if/else“-Anweisungen und Schleifen mit „for each“-Anweisungen. Siehe Lakeflow Jobs.

Merkmal	BESCHREIBUNG
Arbeitsplätze	Jobs sind die primäre Ressource für die Orchestrierung. Sie stellen einen Prozess dar, den Sie auf geplanter Basis ausführen möchten.
Aufgaben	Eine bestimmte Arbeitseinheit innerhalb eines Arbeitsplatzes. Es gibt eine Vielzahl von Aufgabentypen, die Ihnen eine Reihe von Optionen bieten, die innerhalb eines Auftrags ausgeführt werden können.
Kontrollfluss in Jobs	Mit Ablaufsteuerungsaufgaben können Sie steuern, ob andere Aufgaben ausgeführt werden sollen, oder die Reihenfolge der auszuführenden Aufgaben.

Databricks Runtime für Apache Spark

Die Databricks-Runtime ist eine zuverlässige und leistungsoptimierte Computeumgebung für die Ausführung von Spark-Workloads, einschließlich Batch und Streaming. Databricks Runtime stellt Photon, eine leistungsfähige Databricks-eigene vektorisierte Abfrage-Engine und verschiedene Infrastrukturoptimierungen wie automatische Skalierung bereit. Sie können Ihre Spark- und Structured Streaming-Workloads auf der Databricks-Runtime ausführen, indem Sie Ihre Spark-Programme als Notizbücher, JARs oder Python-Räder erstellen. Siehe Databricks Runtime für Apache Spark.

Merkmal	BESCHREIBUNG
Apache Spark auf Databricks	Spark ist das Herzstück der Databricks Data Intelligence Platform.
Strukturiertes Streaming	Strukturiertes Streaming ist die Spark-Engine für die nahezu in Echtzeit erfolgende Verarbeitung von Streaming-Daten.

Was ist mit Delta Live Tables (DLT)?

Wenn Sie mit Delta Live Tables (DLT) vertraut sind, lesen Sie , was mit Delta Live Tables (DLT) passiert ist?.

Weitere Ressourcen

Datentechnikkonzepte beschreibt Datentechnikkonzepte in Azure Databricks.
Delta Lake ist die optimierte Speicherschicht, die die Grundlage für Tabellen in einem Seehaus in Azure Databricks bietet.
Unter Bewährte Methoden für die Datentechnik lernen Sie bewährte Methoden für die Datentechnik in Azure Databricks kennen.
Databricks-Notizbücher sind ein beliebtes Tool für Zusammenarbeit und Entwicklung.
Databricks SQL beschreibt die Verwendung von SQL-Abfragen und BI-Tools in Azure Databricks.
Databricks Mosaik AI beschreibt die Architektur von Machine Learning-Lösungen.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-20