Delen via


Referentiearchitecturen voor Lakehouse (downloaden)

Dit artikel biedt architectuurrichtlijnen voor de lakehouse, met informatie over gegevensbronnen, opname, transformatie, het uitvoeren van query's en verwerking, levering, analyse en opslag.

Elke referentiearchitectuur heeft een downloadbare PDF-indeling van 11 x 17 (A3).

Hoewel het Lakehouse op Databricks een open platform is dat kan worden geïntegreerd met een groot ecosysteem van partnerhulpprogramma's, richten de referentiearchitecturen zich alleen op Azure-services en databricks lakehouse. De weergegeven cloudproviderservices zijn geselecteerd om de concepten te illustreren en zijn niet volledig.

Referentiearchitectuur voor Azure Databricks Lakehouse.

Downloaden: Referentiearchitectuur voor de Azure Databricks Lakehouse-

De Azure-referentiearchitectuur toont de volgende Azure-specifieke services voor opname, opslag, service en analyse:

  • Azure Synapse en SQL Server als bronsystemen voor Lakehouse Federation
  • Azure IoT Hub en Azure Event Hubs voor streaminggegevensinvoer
  • Azure Data Factory voor batchverwerking
  • Azure Data Lake Storage Gen 2 (ADLS) als objectopslag voor gegevens en AI-assets
  • Azure SQL DB en Azure Cosmos DB als operationele databases
  • Azure Purview als de bedrijfscatalogus waarnaar UC schema- en herkomstgegevens exporteert
  • Power BI als BI-tool
  • Azure OpenAI kan worden gebruikt door Model serving als een externe LLM

Organisatie van de referentiearchitecturen

De referentiearchitectuur is gestructureerd langs de zwembanen Bron, Opnemen, Transformeren, Query/Process, Dienen, Analyseen Opslag:

  • Source

    Er zijn drie manieren om externe gegevens te integreren in het Data Intelligence Platform:

    • ETL: Het platform maakt integratie mogelijk met systemen die semi-gestructureerde en ongestructureerde gegevens bieden (zoals sensoren, IoT-apparaten, media, bestanden en logboeken), evenals gestructureerde gegevens uit relationele databases of zakelijke toepassingen.
    • Lakehouse Federation: SQL-bronnen, zoals relationele databases, kunnen worden geïntegreerd in lakehouse en Unity Catalog zonder ETL. In dit geval worden de bronsysteemgegevens beheerd door Unity Catalog en worden query's naar het bronsysteem gepusht.
    • Catalogusfederatie: Hive Metastore-catalogi kunnen ook worden geïntegreerd in Unity Catalog via catalogusfederatie, zodat Unity Catalog de tabellen kan beheren die zijn opgeslagen in Hive Metastore.
  • Ingest

    Gegevens opnemen in lakehouse via batch of streaming:

    • Databricks Lakeflow Connect biedt ingebouwde connectors voor opname vanuit bedrijfstoepassingen en -databases. De resulterende opnamepijplijn wordt beheerd door Unity Catalog en wordt mogelijk gemaakt door serverloze berekeningen en pijplijnen.
    • Bestanden die in de cloudopslag worden geleverd, kunnen rechtstreeks worden geladen met behulp van het Databricks Auto Loader.
    • Voor batchopname van gegevens uit bedrijfstoepassingen in Delta Lake vertrouwt de Databricks Lakehouse op partner-opnamehulpmiddelen met specifieke adapters voor deze recordsystemen.
    • Streaminggebeurtenissen kunnen rechtstreeks vanuit gebeurtenisstreamingsystemen, zoals Kafka, worden opgenomen met behulp van Databricks Structured Streaming. Streamingbronnen kunnen sensoren, IoT of processen voor veranderingsgegevens vastleggen zijn.
  • Storage

  • Transformeer en Query / proces

    • Databricks Lakehouse gebruikt de engines Apache Spark en Photon voor alle transformaties en query's.

    • Pijplijnen is een declaratief framework voor het vereenvoudigen en optimaliseren van betrouwbare, onderhoudbare en testbare pijplijnen voor gegevensverwerking.

    • Het Databricks Data Intelligence Platform, mogelijk gemaakt door Apache Spark en Photon, ondersteunt beide typen workloads: SQL-query's via SQL-magazijnen en SQL-, Python- en Scala-workloads via werkruimteclusters.

    • Voor data science (ML Modeling en Gen AI) biedt het Databricks AI- en Machine Learning-platform gespecialiseerde ML-runtimes voor AutoML en voor het coderen van ML-taken. Alle data science- en MLOps-werkstromen worden het beste ondersteund door MLflow.

  • Serving

    • Voor datawarehousing (DWH) en BI-gebruikssituaties biedt Databricks Lakehouse Databricks SQL, het datawarehouse aangedreven door SQL warehouses en serverloze SQL warehouses.

    • Voor machine learning is Mosaic AI Model Serving een schaalbaar, realtime, zakelijk model dat wordt gehost in het Databricks-besturingsvlak. Mozaïek AI Gateway is de oplossing van Databricks voor het beheren en bewaken van toegang tot ondersteunde generatieve AI-modellen en hun bijbehorende model voor eindpunten.

    • Operationele databases:

      • Lakebase is een OLTP-database (Online Transaction Processing) op basis van Postgres en volledig geïntegreerd met het Databricks Data Intelligence Platform. Hiermee kunt u OLTP-databases maken op Databricks en OLTP-workloads integreren met uw Lakehouse.
      • Externe systemen, zoals operationele databases, kunnen worden gebruikt voor het opslaan en leveren van eindproducten aan gebruikerstoepassingen.
  • Collaboration:

    • Zakelijke partners krijgen veilige toegang tot de gegevens die ze nodig hebben via Delta Sharing.

    • Op basis van Delta Sharing is Databricks Marketplace een open forum voor het uitwisselen van gegevensproducten.

    • Clean Rooms zijn veilige en privacybeveiligde omgevingen waar meerdere gebruikers kunnen samenwerken aan gevoelige bedrijfsgegevens zonder directe toegang tot elkaars gegevens.

  • Analysis

    • De laatste zakelijke toepassingen bevinden zich in deze zwembaan. Voorbeelden zijn aangepaste clients zoals AI-toepassingen die zijn verbonden met Mosaic AI Model Serving voor realtime deductie of toepassingen die toegang hebben tot gegevens die vanuit lakehouse naar een operationele database worden gepusht.

    • Voor BI-use cases gebruiken analisten doorgaans BI-hulpprogramma's voor toegang tot het datawarehouse. SQL-ontwikkelaars kunnen bovendien de Databricks SQL Editor (niet weergegeven in het diagram) gebruiken voor query's en dashboarding.

    • Het Data Intelligence Platform biedt ook dashboards voor het bouwen van gegevensvisualisaties en het delen van inzichten.

  • Integrate

    • Externe AI-services zoals OpenAI, LangChain of HuggingFace kunnen rechtstreeks vanuit het Databricks Intelligence Platform worden gebruikt.

    • Externe orkestratoren kunnen de uitgebreide REST API- of specifieke connectors voor externe orkestratietools zoals Apache Airflow-gebruiken.

    • Unity Catalog wordt gebruikt voor alle data- en AI-governance in het Databricks Intelligence Platform en kan andere databases integreren in de governance via Lakehouse Federation.

      Daarnaast kan Unity Catalog worden geïntegreerd in andere bedrijfscatalogussen, bijvoorbeeld Purview. Neem contact op met de leverancier van de bedrijfscatalogus voor meer informatie.

Algemene mogelijkheden voor alle workloads

Daarnaast wordt databricks lakehouse geleverd met beheermogelijkheden die ondersteuning bieden voor alle workloads:

  • Gegevens en AI-governance

    Het centrale data- en AI-governancesysteem in het Databricks Data Intelligence Platform is Unity Catalog. Unity Catalog biedt één locatie voor het beheren van beleidsregels voor gegevenstoegang die van toepassing zijn op alle werkruimten en ondersteunt alle assets die zijn gemaakt of gebruikt in lakehouse, zoals tabellen, volumes, functies (functiearchief) en modellen (modelregister). Unity Catalog kan ook worden gebruikt om runtimegegevensherkomst vast te leggen voor query's die worden uitgevoerd op Databricks.

    Met Databricks Data Quality Monitoring kunt u de gegevenskwaliteit van alle tabellen in uw account bewaken. Het detecteert afwijkingen in al uw tabellen en biedt een volledig gegevensprofiel voor elke tabel.

    Voor waarneembaarheid zijn systeemtabellen een door Databricks gehoste analytische opslag van de operationele gegevens van uw account. Systeemtabellen kunnen worden gebruikt voor historische waarneembaarheid in uw account.

  • Data intelligence-engine

    Met het Databricks Data Intelligence Platform kan uw hele organisatie gegevens en AI gebruiken, waarbij generatieve AI wordt gecombineerd met de eenwordingsvoordelen van een lakehouse om inzicht te hebben in de unieke semantiek van uw gegevens. Zie de ondersteunende functies van Databricks AI.

    De Databricks Assistant is beschikbaar in Databricks-notebooks, SQL-editor, bestandseditor en elders als contextbewuste AI-assistent voor gebruikers.

  • Automatisering en orkestratie

    Lakeflow Jobs coördineren gegevensverwerking, machine learning en analysetrajecten op het Databricks Data Intelligence Platform. Met Lakeflow Spark-declaratieve pijplijnen kunt u betrouwbare en onderhoudbare ETL-pijplijnen bouwen met declaratieve syntaxis. Het platform ondersteunt ook CI/CD- en MLOps-

Use cases op hoog niveau voor het Data Intelligence Platform in Azure

Ingebouwde opname van SaaS-apps en -databases met Lakeflow Connect

Ingestie met LFC op Azure Databricks.

Download: Lakeflow Connect-referentiearchitectuur voor Azure Databricks.

Databricks Lakeflow Connect biedt ingebouwde connectors voor opname vanuit bedrijfstoepassingen en -databases. De resulterende opnamepijplijn wordt beheerd door Unity Catalog en wordt mogelijk gemaakt door serverloze compute- en Lakeflow Spark-declaratieve pijplijnen.

Lakeflow Connect maakt gebruik van efficiënte incrementele lees- en schrijfbewerkingen om gegevensopname sneller, schaalbaar en rendabeler te maken, terwijl uw gegevens vers blijven voor downstreamverbruik.

Batchopname en ETL

Referentiearchitectuur voor batch ETL in Azure Databricks.

Downloaden: Batch ETL-referentiearchitectuur voor Azure Databricks

Hulpprogramma's voor opname gebruiken bronspecifieke adapters om gegevens uit de bron te lezen en deze vervolgens op te slaan in de cloudopslag van waaruit Auto Loader het kan lezen of Databricks rechtstreeks aanroepen (bijvoorbeeld met partneropnamehulpprogramma's die zijn geïntegreerd in databricks lakehouse). Om de gegevens te laden, voert de Databricks ETL en de verwerkingsengine de query's uit via pijplijnen. Choreografeer taken voor enkele of meerdere opdrachten met Lakeflow Jobs en bestuur deze via Unity Catalog (toegangsbeheer, controle, herkomst, enzovoort). Als u toegang wilt bieden tot specifieke gouden tabellen voor operationele systemen met lage latentie, exporteert u de tabellen naar een operationele database, zoals een RDBMS- of sleutelwaardearchief aan het einde van de ETL-pijplijn.

Gegevensopname streamen en wijzigen (CDC)

gestructureerde Spark-streamingarchitectuur in Azure Databricks.

Downloaden: Gestructureerde Spark-streamingarchitectuur voor Azure Databricks

De Databricks ETL-engine maakt gebruik van Spark Structured Streaming om te lezen uit gebeurteniswachtrijen, zoals Apache Kafka of Azure Event Hub. De downstreamstappen volgen de benadering van de bovenstaande Batch-use-case.

In realtime wordt change data capture (CDC) meestal gebruikt om de geëxtraheerde gebeurtenissen op te slaan in een gebeurteniswachtrij. Vanaf daar volgt het gebruiksscenario het streaminggebruiksscenario.

Als CDC in batch wordt uitgevoerd en de geëxtraheerde records eerst in de cloudopslag worden opgeslagen, kan Databricks Autoloader deze lezen, en volgt de toepassing het Batch ETL-proces.

Machine learning en AI (traditioneel)

machine learning- en AI-referentiearchitectuur voor Azure Databricks.

Downloaden: Machine learning- en AI-referentiearchitectuur voor Azure Databricks

Voor machine learning biedt het Databricks Data Intelligence Platform Mozaïek AI, dat wordt geleverd met geavanceerde machine- en deep learning-bibliotheken. Het biedt mogelijkheden zoals Feature Store en Model Registry (beide geïntegreerd in Unity Catalog), functies met weinig code met AutoML en MLflow-integratie in de levenscyclus van data science.

Unity Catalog bepaalt alle gegevenswetenschapgerelateerde assets (tabellen, functies en modellen) en gegevenswetenschappers kunnen Lakeflow-taken gebruiken om hun taken te organiseren.

Voor het implementeren van modellen op een schaalbare en hoogwaardige manier, gebruikt u de MLOps-mogelijkheden om de modellen te publiceren in modelverdiening.

AI-agenttoepassingen (Gen AI)

Gen AI-toepassingsreferentiearchitectuur voor Azure Databricks.

Downloaden: Referentiearchitectuur voor Gen AI-toepassingen voor Azure Databricks-

Voor het implementeren van modellen op een schaalbare en zakelijke manier, gebruik de MLOps-functionaliteiten om de modellen te publiceren via modellering dienstverlening.

BI- en SQL-analyses

referentiearchitectuur voor BI- en SQL-analyse voor Azure Databricks.

Download: Referentie-architectuur voor BI- en SQL-analyse voor Azure Databricks

Voor BI-use cases kunnen bedrijfsanalisten dashboards, de Databricks SQL-editor of BI-hulpprogramma's zoals Tableau of Power BI gebruiken. In alle gevallen is de engine Databricks SQL (serverloos of niet-serverloos) en biedt Unity Catalog gegevensdetectie, verkenning en toegangsbeheer.

Zakelijke apps

Zakelijke apps voor Databricks voor Azure Databricks.

Downloaden: Business Apps voor Azure Databricks

Met Databricks Apps kunnen ontwikkelaars beveiligde gegevens en AI-toepassingen rechtstreeks bouwen en implementeren op het Databricks-platform, waardoor er geen afzonderlijke infrastructuur meer nodig is. Apps worden gehost op het serverloze Databricks-platform en kunnen worden geïntegreerd met belangrijke platformservices. Gebruik Lakebase als de app OLTP-gegevens nodig heeft die zijn gesynchroniseerd vanuit Lakehouse.

Lakehouse-federatie

Lakehouse-referentiearchitectuur voor federatie voor Azure Databricks.

Download: de Lakehouse Federatie naslagarchitectuur voor Azure Databricks

Met Lakehouse Federation kunnen sql-databases voor externe gegevens (zoals MySQL, Postgres, SQL Server of Azure Synapse) worden geïntegreerd met Databricks.

Alle workloads (AI, DWH en BI) kunnen hiervan profiteren zonder dat de data eerst naar objectopslag hoeft te worden getransformeerd. De externe broncatalogus wordt toegewezen aan de Unity-catalogus en gedetailleerd toegangsbeheer kan worden toegepast op toegang via het Databricks-platform.

Catalogusfederatie

Catalogusfederatiearchitectuur voor Azure Databricks.

Downloaden: Referentiearchitectuur voor catalogusfederatie voor Azure Databricks

Met catalogusfederatie kunnen externe Hive-metastores (zoals MySQL, Postgres, SQL Server of Azure Synapse) worden geïntegreerd met Databricks.

Alle workloads (AI, DWH en BI) kunnen hiervan profiteren zonder dat de data eerst naar objectopslag hoeft te worden getransformeerd. De externe broncatalogus wordt toegevoegd aan Unity Catalog, waar fijnmazig toegangsbeheer wordt toegepast via het Databricks-platform.

Gegevens delen met hulpprogramma's van derden

Referentiearchitectuur voor het delen van zakelijke gegevens voor Azure Databricks.

Downloaden: Gegevens delen met referentiearchitectuur voor hulpprogramma's van derden voor Azure Databricks

Gegevens delen op ondernemingsniveau met derden wordt geleverd door Delta Sharing. Hiermee kunt u rechtstreeks toegang krijgen tot gegevens in het objectarchief dat wordt beveiligd door Unity Catalog. Deze mogelijkheid wordt ook gebruikt in Databricks Marketplace, een open forum voor het uitwisselen van gegevensproducten.

Gedeelde gegevens van Databricks gebruiken

Gebruik gedeelde gegevens van Databricks voor Azure Databricks.

Downloaden: Gedeelde gegevens gebruiken uit de Databricks-referentiearchitectuur voor Azure Databricks

Met het Delta Sharing Databricks-to-Databricks-protocol kunnen gebruikers gegevens veilig delen met elke Databricks-gebruiker, ongeacht het account of de cloudhost, zolang die gebruiker toegang heeft tot een werkruimte die is ingeschakeld voor Unity Catalog.