Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Dieser Artikel behandelt Databricks Connect für Databricks Runtime 14.0 und höher.
Databricks Connect für Python wird mit einer Binärdatei ausgeliefert, bei der es sich um eine pyspark PySpark REPL (eine Spark Shell) handelt, die für die Verwendung von Databricks Connect konfiguriert ist.
Starten der Shell
Um die Spark-Shell zu starten und eine Verbindung mit Ihrem ausgeführten Cluster herzustellen, führen Sie den folgenden Befehl aus Ihrer aktivierten virtuellen Python-Umgebung aus.
Hinweis
Wenn sie ohne zusätzliche Parameter gestartet wurde, wählt die Shell Standardanmeldeinformationen aus der Umgebung (z. B. die DATABRICKS_ Umgebungsvariablen oder das DEFAULT Konfigurationsprofil) aus, um eine Verbindung mit dem Azure Databricks-Cluster herzustellen. Informationen zum Konfigurieren einer Verbindung finden Sie unter Computekonfiguration für Databricks Connect.
pyspark
Die Spark-Shell wird angezeigt, z. B.:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Sobald die Shell gestartet wird, steht das spark Objekt zum Ausführen von Apache Spark-Befehlen im Databricks-Cluster zur Verfügung. Führen Sie einen einfachen PySpark-Befehl aus, wie zum Beispiel spark.range(1,10).show(). Wenn keine Fehler vorhanden sind, haben Sie erfolgreich eine Verbindung hergestellt.
Verwenden Sie die Shell
Informationen zur Verwendung der Spark-Shell mit Python zum Ausführen von Befehlen in Ihrem Compute finden Sie unter Interaktive Analyse mit der Spark-Shell.
Verwenden Sie die integrierte Variable spark, um SparkSession in Ihrem ausgeführten Cluster darzustellen, z. B.:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Der gesamte Python-Code wird lokal ausgeführt, während der gesamte PySpark-Code, einschließlich DataFrame-Vorgängen, im Cluster im Azure Databricks-Remotearbeitsbereich ausgeführt wird. Die Ausführungsantworten werden an den lokalen Aufrufer zurückgesendet.
Beenden der Shell
Um die Spark-Shell zu beenden, drücken Sie Ctrl + d oder Ctrl + z, oder führen Sie den Befehl quit() oder exit() aus.