Shell PySpark

Remarque

Cet article traite de Databricks Connect pour Databricks Runtime 14.0 et versions ultérieures.

Databricks Connect pour Python est fourni avec un pyspark binaire qui est un REPL PySpark (un interpréteur de commandes Spark) configuré pour utiliser Databricks Connect.

Démarrer l’interpréteur de commandes

Pour démarrer l’interpréteur de commandes Spark et pour le connecter à votre cluster en cours d’exécution, exécutez la commande suivante à partir de votre environnement virtuel Python activé.

Remarque

Lorsque vous avez démarré sans paramètres supplémentaires, l’interpréteur de commandes récupère les informations d’identification par défaut de l’environnement (par exemple, les DATABRICKS_ variables d’environnement ou le DEFAULT profil de configuration) pour vous connecter au cluster Azure Databricks. Pour plus d’informations sur la configuration d’une connexion, consultez Configuration de calcul pour Databricks Connect.

pyspark

L’interpréteur de commandes Spark s’affiche, par exemple :

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Une fois l’interpréteur de commandes démarré, l’objet spark est disponible pour exécuter des commandes Apache Spark sur le cluster Databricks. Exécutez une commande PySpark simple, telle que spark.range(1,10).show(). S’il n’y a pas d’erreur, vous vous êtes connecté.

Utilisez le shell

Pour plus d’informations sur l’utilisation de l’interpréteur de commandes Spark avec Python pour exécuter les commandes sur votre calcul, consultez la section Analyse interactive avec l’interpréteur de commandes Spark.

Utilisez la variable spark intégrée pour représenter SparkSession sur votre cluster en cours d’exécution, par exemple :

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Tout le code Python s'exécute localement, tandis que tout le code PySpark impliquant des opérations DataFrame s'exécute sur le cluster dans l'espace de travail Azure Databricks distant et les réponses d'exécution sont renvoyées à l'appelant local.

Arrêter l’interpréteur de commandes

Pour arrêter l’interpréteur de commandes Spark, appuyez sur Ctrl + d ou Ctrl + z, ou exécutez la commande quit() ou exit().

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-12-13