Compartilhar via


Shell do PySpark

Observação

Este artigo aborda o Databricks Connect para Databricks Runtime 14.0 e superior.

O Databricks Connect para Python vem com um pyspark binário que é um REPL do PySpark (um shell Spark) configurado para usar o Databricks Connect.

Inicie o shell

Para iniciar o shell do Spark e conectá-lo ao cluster em execução, execute o comando a seguir em seu ambiente virtual do Python ativado.

Observação

Quando iniciado sem parâmetros adicionais, o shell seleciona as credenciais padrão do ambiente (por exemplo, as DATABRICKS_ variáveis de ambiente ou o DEFAULT perfil de configuração) para se conectar ao cluster do Azure Databricks. Para obter informações sobre como configurar uma conexão, consulte a configuração de computação para o Databricks Connect.

pyspark

O shell do Spark é exibido, por exemplo:

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Depois que o shell for iniciado, o spark objeto estará disponível para executar comandos do Apache Spark no cluster do Databricks. Execute um comando PySpark simples, como spark.range(1,10).show(). Se não houver erros, você se conectou com sucesso.

Usar o shell

Consulte Análise Interativa com o Shell do Spark para obter informações sobre como usar o shell Spark com Python para executar comandos em sua computação.

Use a variável interna spark para representar o SparkSession no cluster em execução, por exemplo:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações do DataFrame é executado no cluster no workspace remoto do Azure Databricks e as respostas de execução são enviadas de volta para o chamador local.

Parar o shell

Para interromper o shell do Spark, pressione Ctrl + d ou Ctrl + z, ou execute o comando quit() ou exit().