Wat is Databricks Connect?

Notitie

Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

Zie Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder voor meer informatie over de verouderde versie van Databricks Connect.

Databricks Connect is een clientbibliotheek voor de Databricks Runtime waarmee u verbinding kunt maken met Azure Databricks Compute van IDE's, zoals Visual Studio Code, PyCharm en IntelliJ IDEA, notebooks en elke aangepaste toepassing, om nieuwe interactieve gebruikerservaringen mogelijk te maken op basis van uw Azure Databricks Lakehouse.

Databricks Connect is beschikbaar voor de volgende talen:

Wat kan ik doen met Databricks Connect?

Met Databricks Connect kunt u code schrijven met behulp van Spark-API's en deze op afstand uitvoeren op Azure Databricks Compute in plaats van in de lokale Spark-sessie.

Interactief ontwikkelen en fouten opsporen vanuit elke IDE. Met Databricks Connect kunnen ontwikkelaars hun code op Databricks Compute ontwikkelen en fouten opsporen met behulp van de systeemeigen functionaliteit van IDE voor uitvoering en foutopsporing. De Databricks Visual Studio Code-extensie maakt gebruik van Databricks Connect om ingebouwde foutopsporing van gebruikerscode op Databricks te bieden.
Interactieve gegevens-apps bouwen. Net als bij een JDBC-stuurprogramma kan de Databricks Connect-bibliotheek worden ingesloten in elke toepassing om te communiceren met Databricks. Databricks Connect biedt volledige expressiviteit van Python via PySpark, waardoor de impedantie mismatch van de SQL-programmeertaal wordt geëlimineerd en u alle datatransformaties kunt uitvoeren met Spark op de serverloze schaalbare rekenkracht van Databricks.

Hoe werkt het?

Databricks Connect is gebouwd op opensource Spark Connect, met een losgekoppelde clientserverarchitectuur voor Apache Spark waarmee externe connectiviteit met Spark-clusters mogelijk is met behulp van de DataFrame-API. Het onderliggende protocol maakt gebruik van onopgeloste logische spark-plannen en Apache Arrow boven op gRPC. De client-API is ontworpen om dun te zijn, zodat deze overal kan worden ingesloten: in toepassingsservers, IDE's, notebooks en programmeertalen.

Waar Databricks Connect-code wordt uitgevoerd

Algemene code wordt lokaal uitgevoerd: Python- en Scala-code wordt uitgevoerd aan de clientzijde, waardoor interactieve foutopsporing mogelijk is. Alle code wordt lokaal uitgevoerd, terwijl alle Spark-code blijft worden uitgevoerd op het externe cluster.
DataFrame-API's worden uitgevoerd op Databricks Compute. Alle gegevenstransformaties worden geconverteerd naar Spark-plannen en uitgevoerd op de Databricks-berekening via de externe Spark-sessie. Ze worden gematerialiseerd op uw lokale client wanneer u opdrachten zoals collect(), show() en toPandas() gebruikt.
UDF-code wordt uitgevoerd op Databricks-rekenproces: UDF's die lokaal zijn gedefinieerd, worden geserialiseerd en verzonden naar het cluster waarop deze wordt uitgevoerd. API's die gebruikerscode uitvoeren op Databricks zijn: UDF's, foreach, foreachBatchen transformWithState.
Voor afhankelijkhedenbeheer:
- Installeer toepassingsafhankelijkheden op uw lokale computer. Deze worden lokaal uitgevoerd en moeten worden geïnstalleerd als onderdeel van uw project, zoals een onderdeel van uw virtuele Python-omgeving.
- Installeer UDF-afhankelijkheden op Databricks. Zie UDF's met afhankelijkheden.

Spark Connect is een opensource-protocol op basis van gRPC in Apache Spark waarmee externe uitvoering van Spark-workloads mogelijk is met behulp van de DataFrame-API.

Voor Databricks Runtime 13.3 LTS en hoger is Databricks Connect een uitbreiding van Spark Connect met toevoegingen en wijzigingen ter ondersteuning van het werken met Databricks-rekenmodi en Unity Catalog.

Volgende stappen

Zie de volgende zelfstudies om snel aan de slag te gaan met het ontwikkelen van Databricks Connect-oplossingen:

Als u voorbeeldtoepassingen wilt zien die Gebruikmaken van Databricks Connect, raadpleegt u de Opslagplaats met GitHub-voorbeelden, waaronder de volgende voorbeelden:

Feedback

Is deze pagina nuttig?

Last updated on 2026-01-16

Delen via

Wat is Databricks Connect?

Wat kan ik doen met Databricks Connect?

Hoe werkt het?

Hoe zijn Databricks Connect en Spark Connect gerelateerd?

Volgende stappen

Feedback

Aanvullende resources