Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Notitie
Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
Zie Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder voor meer informatie over de verouderde versie van Databricks Connect.
Databricks Connect is een clientbibliotheek voor de Databricks Runtime waarmee u verbinding kunt maken met Azure Databricks Compute van IDE's, zoals Visual Studio Code, PyCharm en IntelliJ IDEA, notebooks en elke aangepaste toepassing, om nieuwe interactieve gebruikerservaringen mogelijk te maken op basis van uw Azure Databricks Lakehouse.
Databricks Connect is beschikbaar voor de volgende talen:
Wat kan ik doen met Databricks Connect?
Met Databricks Connect kunt u code schrijven met behulp van Spark-API's en deze op afstand uitvoeren op Azure Databricks Compute in plaats van in de lokale Spark-sessie.
Interactief ontwikkelen en fouten opsporen vanuit elke IDE. Met Databricks Connect kunnen ontwikkelaars hun code op Databricks Compute ontwikkelen en fouten opsporen met behulp van de systeemeigen functionaliteit van IDE voor uitvoering en foutopsporing. De Databricks Visual Studio Code-extensie maakt gebruik van Databricks Connect om ingebouwde foutopsporing van gebruikerscode op Databricks te bieden.
Interactieve gegevens-apps bouwen. Net als bij een JDBC-stuurprogramma kan de Databricks Connect-bibliotheek worden ingesloten in elke toepassing om te communiceren met Databricks. Databricks Connect biedt volledige expressiviteit van Python via PySpark, waardoor de impedantie mismatch van de SQL-programmeertaal wordt geëlimineerd en u alle datatransformaties kunt uitvoeren met Spark op de serverloze schaalbare rekenkracht van Databricks.
Hoe werkt het?
Databricks Connect is gebouwd op opensource Spark Connect, met een losgekoppelde clientserverarchitectuur voor Apache Spark waarmee externe connectiviteit met Spark-clusters mogelijk is met behulp van de DataFrame-API. Het onderliggende protocol maakt gebruik van onopgeloste logische spark-plannen en Apache Arrow boven op gRPC. De client-API is ontworpen om dun te zijn, zodat deze overal kan worden ingesloten: in toepassingsservers, IDE's, notebooks en programmeertalen.
- Algemene code wordt lokaal uitgevoerd: Python- en Scala-code wordt uitgevoerd aan de clientzijde, waardoor interactieve foutopsporing mogelijk is. Alle code wordt lokaal uitgevoerd, terwijl alle Spark-code blijft worden uitgevoerd op het externe cluster.
-
DataFrame-API's worden uitgevoerd op Databricks Compute. Alle gegevenstransformaties worden geconverteerd naar Spark-plannen en uitgevoerd op de Databricks-berekening via de externe Spark-sessie. Ze worden gematerialiseerd op uw lokale client wanneer u opdrachten zoals
collect(),show()entoPandas()gebruikt. -
UDF-code wordt uitgevoerd op Databricks-rekenproces: UDF's die lokaal zijn gedefinieerd, worden geserialiseerd en verzonden naar het cluster waarop deze wordt uitgevoerd. API's die gebruikerscode uitvoeren op Databricks zijn: UDF's,
foreach,foreachBatchentransformWithState. - Voor afhankelijkhedenbeheer:
- Installeer toepassingsafhankelijkheden op uw lokale computer. Deze worden lokaal uitgevoerd en moeten worden geïnstalleerd als onderdeel van uw project, zoals een onderdeel van uw virtuele Python-omgeving.
- Installeer UDF-afhankelijkheden op Databricks. Zie UDF's met afhankelijkheden.
Hoe zijn Databricks Connect en Spark Connect gerelateerd?
Spark Connect is een opensource-protocol op basis van gRPC in Apache Spark waarmee externe uitvoering van Spark-workloads mogelijk is met behulp van de DataFrame-API.
Voor Databricks Runtime 13.3 LTS en hoger is Databricks Connect een uitbreiding van Spark Connect met toevoegingen en wijzigingen ter ondersteuning van het werken met Databricks-rekenmodi en Unity Catalog.
Volgende stappen
Zie de volgende zelfstudies om snel aan de slag te gaan met het ontwikkelen van Databricks Connect-oplossingen:
- Databricks Connect klassieke compute zelfstudie voor Python
- Zelfstudie voor Serverless Compute in Databricks Connect voor Python
- Databricks Connect voor klassieke Scala compute-tutorial
- Zelfstudie voor serverloze berekening met Databricks Connect voor Scala
- Handleiding voor Databricks Connect voor R
Als u voorbeeldtoepassingen wilt zien die Gebruikmaken van Databricks Connect, raadpleegt u de Opslagplaats met GitHub-voorbeelden, waaronder de volgende voorbeelden: