Partilhar via


Concha PySpark

Nota

Este artigo aborda o Databricks Connect for Databricks Runtime 14.0 e superior.

O Databricks Connect for Python vem com um pyspark binário que é um PySpark REPL (um shell do Spark) configurado para usar o Databricks Connect.

Inicie o terminal

Para iniciar o shell Spark e ligá-lo ao seu cluster em execução, execute o seguinte comando a partir do seu ambiente virtual Python ativado.

Nota

Quando iniciado sem parâmetros adicionais, o shell recolhe credenciais padrão do ambiente (por exemplo, as DATABRICKS_ variáveis do ambiente ou o DEFAULT perfil de configuração) para se ligar ao cluster Azure Databricks. Para obter informações sobre como configurar uma conexão, consulte Configuração de computação para Databricks Connect.

pyspark

O shell Spark aparece, por exemplo:

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Depois que o shell é iniciado, o spark objeto fica disponível para executar comandos do Apache Spark no cluster Databricks. Execute um comando PySpark simples, como spark.range(1,10).show(). Se não houver erros, você se conectou com êxito.

Usa a carcaça

Consulte Análise interativa com o Spark Shell para obter informações sobre como usar o shell do Spark com Python para executar comandos em sua computação.

Use a variável interna spark para representar o SparkSession cluster em execução, por exemplo:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Todo o código Python é executado localmente, enquanto todo o código PySpark envolvendo operações DataFrame é executado no cluster no espaço de trabalho remoto do Azure Databricks e as respostas de execução são enviadas de volta ao chamador local.

Parem a granada

Para parar o shell do Spark, pressione Ctrl + d ou Ctrl + zou execute o comando quit() ou exit().