Freigeben über


Data Engineering mit Databricks

Databricks bietet Lakeflow, eine End-to-End Data Engineering-Lösung, mit der Dateningenieure, Softwareentwickler, SQL-Entwickler, Analysten und Data Scientists qualitativ hochwertige Daten für downstream-Analysen, KI und betriebliche Anwendungen bereitstellen können. Lakeflow ist eine einheitliche Lösung für Aufnahme, Transformation und Orchestrierung Ihrer Daten und umfasst Lakeflow Connect, Lakeflow Spark Declarative Pipelines und Lakeflow Jobs.

Lakeflow Connect

Lakeflow Connect vereinfacht die Datenaufnahme mit Connectors zu beliebten Unternehmensanwendungen, Datenbanken, Cloudspeicher, Nachrichtenbussen und lokalen Dateien. Weitere Informationen finden Sie unter LakeFlow Connect.

Merkmal BESCHREIBUNG
Verwaltete Connectors Verwaltete Connectors bieten eine einfache Benutzeroberfläche und einen konfigurationsbasierten Aufnahmedienst mit minimalem Betriebsaufwand, ohne dass Sie die zugrunde liegenden Pipeline-APIs und -Infrastruktur verwenden müssen.
Standard-Steckverbinder Standard-Connectors ermöglichen den Zugriff auf Daten aus einer breiteren Palette von Datenquellen innerhalb Ihrer Pipelines oder anderer Abfragen.

Lakeflow Spark Declarative Pipelines (SDP)

Lakeflow Spark Declarative Pipelines oder SDP ist ein deklaratives Framework, das die Komplexität beim Erstellen und Verwalten effizienter Batch- und Streamingdatenpipelines verringert. Lakeflow SDP erweitert und ist mit Apache Spark Declarative Pipelines kompatibel, während sie auf der leistungsoptimierten Databricks Runtime ausgeführt wird. SDP koordiniert automatisch die Ausführung von Flüssen, Senken, Streamingtabellen und materialisierten Ansichten durch Kapselung und Ausführung als Pipeline. Siehe Lakeflow Spark Declarative Pipelines.

Merkmal BESCHREIBUNG
Ströme Abläufe verarbeiten Daten in Pipelines. Die Flows-API verwendet dieselbe DataFrame-API wie Apache Spark und Structured Streaming. Ein Flow kann mithilfe der Streamingsemantik in Streamingtabellen und Senken schreiben, z. B. ein Kafka-Thema, oder mithilfe von Batchsemantik in eine materialisierte Sicht.
Streamingtabellen Eine Streamingtabelle ist eine Delta-Tabelle mit zusätzlicher Unterstützung für Streaming oder inkrementelle Datenverarbeitung. Sie dient als Ziel für einen oder mehrere Flüsse in Pipelines.
Materialisierte Ansichten Eine materialisierte Ansicht ist eine Ansicht mit zwischengespeicherten Ergebnissen für einen schnelleren Zugriff. Eine materialisierte Ansicht dient als Ziel für Pipelines.
Waschbecken Pipelines unterstützen externe Datensenken als Ziele. Diese Senken können Ereignisstreamingdienste wie Apache Kafka oder Azure Event Hubs, externe Tabellen enthalten, die von Unity Catalog verwaltet werden, oder benutzerdefinierte Senken, die in Python definiert sind.

Lakeflow-Aufträge

Lakeflow Jobs bieten zuverlässige Orchestrierung und Produktionsüberwachung für alle Daten und KI-Arbeitsauslastungen. Ein Auftrag kann aus einer oder mehreren Aufgaben bestehen, die Notebooks, Pipelines, verwaltete Connectors, SQL-Abfragen, Machine Learning-Training sowie Modellimplementierungen und Rückschlüsse ausführen. Aufträge unterstützen auch die benutzerdefinierte Ablaufsteuerungslogik, wie z. B. Verzweigungen mit „if/else“-Anweisungen und Schleifen mit „for each“-Anweisungen. Siehe Lakeflow Jobs.

Merkmal BESCHREIBUNG
Arbeitsplätze Jobs sind die primäre Ressource für die Orchestrierung. Sie stellen einen Prozess dar, den Sie auf geplanter Basis ausführen möchten.
Aufgaben Eine bestimmte Arbeitseinheit innerhalb eines Arbeitsplatzes. Es gibt eine Vielzahl von Aufgabentypen, die Ihnen eine Reihe von Optionen bieten, die innerhalb eines Auftrags ausgeführt werden können.
Kontrollfluss in Jobs Mit Ablaufsteuerungsaufgaben können Sie steuern, ob andere Aufgaben ausgeführt werden sollen, oder die Reihenfolge der auszuführenden Aufgaben.

Databricks Runtime für Apache Spark

Die Databricks-Runtime ist eine zuverlässige und leistungsoptimierte Computeumgebung für die Ausführung von Spark-Workloads, einschließlich Batch und Streaming. Databricks Runtime stellt Photon, eine leistungsfähige Databricks-eigene vektorisierte Abfrage-Engine und verschiedene Infrastrukturoptimierungen wie automatische Skalierung bereit. Sie können Ihre Spark- und Structured Streaming-Workloads auf der Databricks-Runtime ausführen, indem Sie Ihre Spark-Programme als Notizbücher, JARs oder Python-Räder erstellen. Siehe Databricks Runtime für Apache Spark.

Merkmal BESCHREIBUNG
Apache Spark auf Databricks Spark ist das Herzstück der Databricks Data Intelligence Platform.
Strukturiertes Streaming Strukturiertes Streaming ist die Spark-Engine für die nahezu in Echtzeit erfolgende Verarbeitung von Streaming-Daten.

Was ist mit Delta Live Tables (DLT)?

Wenn Sie mit Delta Live Tables (DLT) vertraut sind, lesen Sie , was mit Delta Live Tables (DLT) passiert ist?.

Weitere Ressourcen