Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Nota
Este artigo aborda o Databricks Connect for Databricks Runtime 14.0 e superior.
O Databricks Connect for Python vem com um pyspark binário que é um PySpark REPL (um shell do Spark) configurado para usar o Databricks Connect.
Inicie o terminal
Para iniciar o shell Spark e ligá-lo ao seu cluster em execução, execute o seguinte comando a partir do seu ambiente virtual Python ativado.
Nota
Quando iniciado sem parâmetros adicionais, o shell recolhe credenciais padrão do ambiente (por exemplo, as DATABRICKS_ variáveis do ambiente ou o DEFAULT perfil de configuração) para se ligar ao cluster Azure Databricks. Para obter informações sobre como configurar uma conexão, consulte Configuração de computação para Databricks Connect.
pyspark
O shell Spark aparece, por exemplo:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Depois que o shell é iniciado, o spark objeto fica disponível para executar comandos do Apache Spark no cluster Databricks. Execute um comando PySpark simples, como spark.range(1,10).show(). Se não houver erros, você se conectou com êxito.
Usa a carcaça
Consulte Análise interativa com o Spark Shell para obter informações sobre como usar o shell do Spark com Python para executar comandos em sua computação.
Use a variável interna spark para representar o SparkSession cluster em execução, por exemplo:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Todo o código Python é executado localmente, enquanto todo o código PySpark envolvendo operações DataFrame é executado no cluster no espaço de trabalho remoto do Azure Databricks e as respostas de execução são enviadas de volta ao chamador local.
Parem a granada
Para parar o shell do Spark, pressione Ctrl + d ou Ctrl + zou execute o comando quit() ou exit().