Freigeben über


Lakehouse-Referenzarchitekturen (Download)

Dieser Artikel enthält architektonische Leitlinien für das Lakehouse und behandelt Datenquellen, Aufnahme, Transformation, Abfrage und Verarbeitung, Bereitstellung, Analyse und Speicherung.

Für jede Referenzarchitektur gibt es eine herunterladbare PDF-Datei im Format 11 x 17 (A3).

Während das Lakehouse auf Databricks eine offene Plattform ist, die in ein großes Ökosystem von Partnertools integriert ist, konzentrieren sich die Referenzarchitekturen nur auf Azure-Dienste und das Databricks-Lakehouse. Die angezeigten Cloudanbieterdienste sind ausgewählt, um die Konzepte zu veranschaulichen und nicht erschöpfend zu sein.

Referenzarchitektur für das Azure Databricks Lakehouse.

Download: Referenzarchitektur für das Azure Databricks Lakehouse

Die Azure-Referenzarchitektur zeigt die folgenden Azure-spezifischen Dienste zum Aufnehmen, Speichern, Bereitstellung und Analysieren:

  • Azure Synapse und SQL Server als Quellsysteme für den Lakehouse-Verbund
  • Azure IoT Hub und Azure Event Hubs für Streamingerfassung
  • Azure Data Factory für Batcherfassung
  • Azure Data Lake Storage Gen 2 (ADLS) als Objektspeicher für Daten und KI-Ressourcen
  • Azure SQL DB und Azure Cosmos DB als Betriebsdatenbanken
  • Azure Purview als Unternehmenskatalog, in welches UC Schema- und Abstammungsinformationen exportiert.
  • Power BI als BI-Tool
  • Azure OpenAI kann von Model Serving als externe LLM verwendet werden

Organisation der Referenzarchitekturen

Die Referenzarchitektur gliedert sich in die Verantwortlichkeitsbereiche Quelle, Erfassung, Transformation, Abfrage/Verarbeitung, Bereitstellung, Analyse und Speicherung:

  • Source

    Es gibt drei Möglichkeiten, externe Daten in die Data Intelligence Platform zu integrieren:

    • ETL: Die Plattform ermöglicht die Integration mit Systemen, die halbstrukturierte und unstrukturierte Daten (z. B. Sensoren, IoT-Geräte, Medien, Dateien und Protokolle) sowie strukturierte Daten aus relationalen Datenbanken oder Geschäftsanwendungen bereitstellen.
    • Lakehouse Federation: SQL-Quellen wie relationale Datenbanken können ohne ETL in den Lakehouse- und Unity-Katalog integriert werden. In diesem Fall unterliegen die Quellsystemdaten dem Unity-Katalog, und Abfragen werden an das Quellsystem übertragen.
    • Katalogverbund: Hive-Metastore-Kataloge können auch über den Katalogverbund in Den Unity-Katalog integriert werden, sodass Unity-Katalog die im Hive-Metastore gespeicherten Tabellen steuern kann.
  • Ingest

    Erfassen von Daten per Batchauftrag oder Streaming im Lakehouse:

    • Databricks Lakeflow Connect bietet integrierte Verbindungsmodule für die Datenaufnahme von Unternehmensanwendungen und Datenbanken. Die resultierende Aufnahmepipeline unterliegt dem Unity Catalog und wird von serverlosem Rechnen und Pipelines unterstützt.
    • Dateien, die an cloudbasierten Speicher übermittelt werden, können direkt mit dem Databricks Auto Loader geladen werden.
    • Für die Batcherfassung von Daten aus Unternehmensanwendungen in Delta Lake verlässt sich das Databricks-Lakehouse auf Erfassungstools von Partnern, die über spezielle Adapter für diese Aufzeichnungssysteme verfügen.
    • Streamingereignisse können direkt aus Ereignisstreamingsystemen wie Kafka mithilfe von Databricks Structured Streaming aufgenommen werden. Streamingquellen können Sensoren, IoT (Internet der Dinge) oder Änderungsdatenerfassung-Prozesse sein.
  • Storage

  • Transformation und Abfrage/Verarbeitung

    • Das Databricks Lakehouse verwendet seine Engines Apache Spark und Photon für alle Transformationen und Abfragen.

    • Pipelines ist ein deklaratives Framework zum Vereinfachen und Optimieren von zuverlässigen, wartungsfähigen und testbaren Datenverarbeitungspipelines.

    • Unterstützt von Apache Spark und Photon, unterstützt die Data Intelligence Platform beide Arten von Workloads: SQL-Abfragen über SQL-Warehouses sowie SQL-, Python- und Scala-Workloads über Arbeitsbereichscluster.

    • Für Data Science (ML Modeling and Gen AI) bietet die Databricks AI- und Machine Learning-Plattform spezielle ML-Runtimes für AutoML und für das Codieren von ML-Aufträgen. Alle Data Science- und MLOps-Workflows werden am besten von MLflow unterstützt.

  • Serving

    • Für Data-Warehousing (DWH) und BI-Anwendungsfälle bietet das Databricks Lakehouse Databricks SQL, das von SQL-Warehouses betriebene Data-Warehouse und serverlose SQL-Warehouses.

    • Für maschinelles Lernen bietet Mosaik AI Model Serving eine skalierbare, unternehmensgerechte und echtzeitfähige Bereitstellungsfunktion für Modelle, die in der Steuerungsebene von Databricks gehostet wird. Mosaik AI Gateway ist die Lösung von Databricks für die Steuerung und Überwachung des Zugriffs auf unterstützte generative KI-Modelle und deren zugehöriges Modell, das Endpunkte bedient.

    • Betriebsdatenbanken:

      • Lakebase ist eine OLTP-Datenbank (Online Transaction Processing), die auf Postgres basiert und vollständig in die Databricks Data Intelligence Platform integriert ist. Sie können OLTP-Datenbanken auf Databricks erstellen und OLTP-Workloads in Ihr Lakehouse integrieren.
      • Externe Systeme, z. B. betriebstechnische Datenbanken, können verwendet werden, um endgültige Datenprodukte an Benutzeranwendungen zu speichern und bereitzustellen.
  • Collaboration:

    • Geschäftspartner erhalten sicheren Zugriff auf die daten, die sie über Delta Sharing benötigen.

    • Basierend auf Delta Sharing ist der Databricks Marketplace ein offenes Forum für den Austausch von Datenprodukten.

    • Clean Rooms sind sichere und datenschutzgeschützte Umgebungen, in denen mehrere Benutzer an vertraulichen Unternehmensdaten zusammenarbeiten können, ohne direkten Zugriff auf die Daten der anderen zu haben.

  • Analysis

    • Die endgültigen Geschäftsanwendungen befinden sich in diesem Verantwortlichkeitsbereich. Beispiele hierfür sind benutzerdefinierte Clients wie KI-Anwendungen, die für Echtzeitrückschlüsse mit Mosaic AI Model Serving verbunden sind, oder Anwendungen, die auf Daten zugreifen, die vom Lakehouse in eine Betriebsdatenbank gepusht wurden.

    • Für BI-Anwendungsfälle verwenden Analysten in der Regel BI-Tools, um auf das Data Warehouse zuzugreifen. SQL-Entwickler können zusätzlich den SQL-Editor für Databricks (nicht im Diagramm dargestellt) für Abfragen und Dashboarding verwenden.

    • Die Data Intelligence Platform bietet auch Dashboards zum Erstellen von Datenvisualisierungen und zum Teilen von Erkenntnissen.

  • Integrate

    • Externe KI-Dienste wie OpenAI, LangChain oder HuggingFace können direkt aus der Databricks Intelligence Platform verwendet werden.

    • Externe Orchestratore können entweder die umfassende REST-API oder dedizierte Connectors für externe Orchestrierungstools wie Apache Airflow verwenden.

    • Unity Catalog wird für alle Daten und KI-Governance in der Databricks Intelligence Platform verwendet und kann andere Datenbanken über lakehouse Federation in ihre Governance integrieren.

      Darüber hinaus kann Unity-Katalog in andere Unternehmenskataloge integriert werden, z. B. Purview. Wenden Sie sich an den Anbieter des Unternehmenskatalogs, um Weitere Informationen zu erhalten.

Allgemeine Funktionen für alle Workloads

Darüber hinaus verfügt das Databricks-Lakehouse über Verwaltungsfunktionen, die alle Workloads unterstützen:

  • Daten- und KI-Governance

    Das zentrale Daten- und KI-Governance-System in der Databricks Data Intelligence Platform ist Unity Catalog. Unity Catalog bietet einen zentralen Ort zur Verwaltung von Datenzugriffsrichtlinien, die für alle Arbeitsbereiche gelten und alle im Lakehouse erstellten oder verwendeten Objekte unterstützen, wie z. B. Tabellen, Volumes, Merkmale (Featurespeicher) und Modelle (Modellverzeichnis). Unity-Katalog kann auch verwendet werden, um Laufzeitdatenlinien für Abfragen zu erfassen, die auf Databricks ausgeführt werden.

    Mit databricks Data Quality Monitoring können Sie die Datenqualität aller Tabellen in Ihrem Konto überwachen. Es erkennt Anomalien in allen Tabellen und stellt ein vollständiges Datenprofil für jede Tabelle bereit.

    Systemtabellen sind aus Gründen der Observability ein vom Databricks gehosteter analytischer Speicher der Betriebsdaten Ihres Kontos. Systemtabellen können für die Verlaufsbeobachtung Ihres Kontos verwendet werden.

  • Datenintelligenzmodul

    Die Databricks Data Intelligence-Plattform ermöglicht es Ihrer gesamten Organisation, Daten und KI zu nutzen, indem sie generative KI mit den Vereinheitlichungsvorteilen eines Lakehouse kombiniert, um die einzigartige Semantik Ihrer Daten zu verstehen. Siehe Databricks AI-Hilfsfunktionen.

    Der Databricks-Assistent ist in Datenbricks-Notizbüchern , SQL-Editor, Datei-Editor und an anderer Stelle als kontextabhängiger KI-Assistent für Benutzer verfügbar.

  • Automatisierung & Orchestrierung

    Lakeflow Jobs orchestrieren die Datenverarbeitung, maschinelles Lernen und Analysepipelines auf der Databricks Data Intelligence Platform. Lakeflow Spark Declarative Pipelines ermöglichen es Ihnen, zuverlässige und wartungsfähige ETL-Pipelines mit deklarativer Syntax zu erstellen. Die Plattform unterstützt auch CI/CD und MLOps

Hochrangige Anwendungsfälle für die Data Intelligence Platform auf Azure

Integrierte Aufnahme aus SaaS-Apps und Datenbanken mit Lakeflow Connect

Erfassung mit LFC in Azure Databricks.

Download: Lakeflow Connect-Referenzarchitektur für Azure Databricks.

Databricks Lakeflow Connect bietet integrierte Konnektoren für die Integration aus Unternehmensanwendungen und Datenbanken. Die resultierende Aufnahmepipeline wird vom Unity Catalog gesteuert und nutzt serverlose Compute-Leistung und Lakeflow Spark Declarative Pipelines.

Lakeflow Connect nutzt effiziente inkrementelle Lese- und Schreibvorgänge, um die Erfassung von Daten schneller, skalierbarer und kostengünstiger zu gestalten, während Ihre Daten für den nachgeschalteten Verbrauch frisch bleiben.

Batcherfassung und ETL

Referenzarchitektur für Batch-ETL für Azure Databricks.

Download: Batch ETL-Referenzarchitektur für Azure Databricks

Aufnahmetools verwenden quellspezifische Adapter, um Daten aus der Quelle zu lesen und sie dann entweder im Cloudspeicher zu speichern, von dem Auto Loader sie lesen kann, oder Databricks direkt aufzurufen (zum Beispiel mit Partner-Aufnahmetools, die in das Databricks-Lakehouse integriert sind). Zum Laden der Daten führt das Databricks ETL- und Verarbeitungsmodul die Abfragen über Pipelines aus. Koordinieren Sie Einzel- oder Multitaskaufträge mithilfe von Lakeflow-Aufträgen und steuern Sie sie mithilfe des Unity-Katalogs (Zugriffssteuerung, Überwachung, Linien usw.). Um Zugriff auf bestimmte goldene Tabellen für Betriebssysteme mit geringer Latenz zu ermöglichen, exportieren Sie die Tabellen in eine operative Datenbank, z. B. einen RDBMS- oder Schlüsselwertspeicher am Ende der ETL-Pipeline.

Streamen und Change Data Capture (CDC)

Spark-Architektur für strukturiertes Streaming auf Azure Databricks.

Herunterladen: Spark Structured Streaming-Architektur für Azure Databricks

Das Databricks ETL-Modul verwendet Spark Structured Streaming zum Lesen aus Ereigniswarteschlangen wie Apache Kafka oder Azure Event Hub. Die nachgelagerten Schritte folgen dem Ansatz des obigen Batchanwendungsfalls.

Die Echtzeit-Änderungsdatenerfassung (CDC) speichert in der Regel die extrahierten Ereignisse in einer Ereigniswarteschlange. Ab dort folgt der Anwendungsfall dem Streaminganwendungsfall.

Wenn CDC im Batch-Verfahren abgewickelt wird, bei dem die extrahierten Datensätze zunächst im Cloudspeicher abgelegt werden, kann Databricks Autoloader sie lesen, und der Anwendungsfall entspricht Batch ETL.

Maschinelles Lernen und KI (traditionell)

Maschinelles Lernen und KI-Referenzarchitektur für Azure Databricks.

Download: Maschinelles Lernen und KI-Referenzarchitektur für Azure Databricks

Für maschinelles Lernen bietet die Databricks Data Intelligence Platform Mosaik AI, die mit modernsten Maschinen- und Deep Learning-Bibliotheken verfügt. Es bietet Funktionen wie Feature Store und Modellregistrierung (beide in Unity-Katalog integriert), Low-Code-Features mit AutoML und MLflow-Integration in den Data Science-Lebenszyklus.

Unity Catalog steuert alle datenwissenschaftlichen Ressourcen (Tabellen, Features und Modelle), und Data Scientists können Lakeflow Jobs verwenden, um ihre Aufträge zu koordinieren.

Verwenden Sie die MLOps-Funktionen, um Modelle auf skalierbare und unternehmensgerechte Weise in der Modellbereitstellung zu veröffentlichen.

KI-Agent-Anwendungen (Gen AI)

Gen AI-Anwendungsreferenzarchitektur für Azure Databricks.

Download: Gen AI-Anwendungsreferenzarchitektur für Azure Databricks

Verwenden Sie die MLOps-Funktionen zur Veröffentlichung der Modelle in Model Serving, um Modelle auf skalierbare und unternehmensgerechte Weise bereitzustellen.

BI- und SQL-Analysen

REFERENZarchitektur für BI- und SQL-Analysen für Azure Databricks.

Download: BI- und SQL-Analysereferenzarchitektur für Azure Databricks

Für BI-Anwendungsfälle können Business Analysts Dashboards, den Databricks SQL-Editor oder BI-Tools wie Tableau oder Power BI verwenden. In allen Fällen handelt es sich beim Modul um Databricks SQL (serverlos oder mit Server), und Unity Catalog stellt die Datenerkennung, Erkundung und Zugriffssteuerung bereit.

Geschäfts-Apps

Geschäftsanwendungen für Databricks für Azure Databricks.

Download: Business-Apps für Databricks for Azure Databricks

Mit Databricks-Apps können Entwickler sichere Daten und KI-Anwendungen direkt auf der Databricks-Plattform erstellen und bereitstellen, wodurch die Notwendigkeit einer separaten Infrastruktur beseitigt wird. Apps werden auf der serverlosen Databricks-Plattform gehostet und in wichtige Plattformdienste integriert. Verwenden Sie Lakebase, wenn die App OLTP-Daten benötigt, die aus dem Lakehouse synchronisiert wurden.

Lakehouse-Verbund

Lakehouse-Verbundreferenzarchitektur für Azure Databricks.

Download: Lakehouse-Verbundreferenzarchitektur für Azure Databricks

Lakehouse Federation ermöglicht die Integration externer SQL-Datenbanken (wie MySQL, Postgres, SQL Server oder Azure Synapse) mit Databricks.

Alle Workloads (KI, DWH und BI) können davon profitieren, ohne dass die Daten zuerst per ETL in den Objektspeicher geladen werden müssen. Der externe Quellkatalog wird Unity Catalog zugeordnet, und der Zugriff über die Databricks-Plattform kann differenziert gesteuert werden.

Katalogverbund

Referenzarchitektur des Katalogverbunds für Azure Databricks.

Download: Katalogverbundreferenzarchitektur für Azure Databricks

Der Katalogverbund ermöglicht die Integration externer Hive-Metastores (z. B. MySQL, Postgres, SQL Server oder Azure Synapse) in Databricks.

Alle Workloads (KI, DWH und BI) können davon profitieren, ohne dass die Daten zuerst per ETL in den Objektspeicher geladen werden müssen. Der externe Quellkatalog wird dem Unity-Katalog hinzugefügt, in dem eine differenzierte Zugriffssteuerung über die Databricks-Plattform angewendet wird.

Freigeben von Daten mit Drittanbietertools

Referenzarchitektur für die gemeinsame Nutzung von Unternehmensdaten für Azure Databricks.

Download: Freigeben von Daten mit Referenzarchitektur von Drittanbietertools für Azure Databricks

Die Gemeinsame Nutzung von Daten auf Unternehmensniveau mit Drittanbietern wird von Delta Sharing bereitgestellt. Es ermöglicht direkten Zugriff auf Daten im Objektspeicher, die durch Unity-Katalog gesichert sind. Diese Funktion wird auch im Databricks Marketplace verwendet, einem offenen Forum für den Austausch von Datenprodukten.

Nutzen freigegebener Daten aus Databricks

Nutzen Sie freigegebene Daten aus Databricks für Azure Databricks.

Download: Verwendung freigegebener Daten aus der Databricks-Referenzarchitektur für Azure Databricks

Das Delta Sharing Databricks-to-Databricks-Protokoll ermöglicht Es Benutzern, Daten sicher mit jedem Databricks-Benutzer zu teilen, unabhängig von Konto oder Cloudhost, solange dieser Benutzer Zugriff auf einen Arbeitsbereich hat, der für Unity-Katalog aktiviert ist.