Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
Este artigo aborda o Databricks Connect para Databricks Runtime 14.0 e superior.
O Databricks Connect para Python vem com um pyspark binário que é um REPL do PySpark (um shell Spark) configurado para usar o Databricks Connect.
Inicie o shell
Para iniciar o shell do Spark e conectá-lo ao cluster em execução, execute o comando a seguir em seu ambiente virtual do Python ativado.
Observação
Quando iniciado sem parâmetros adicionais, o shell seleciona as credenciais padrão do ambiente (por exemplo, as DATABRICKS_ variáveis de ambiente ou o DEFAULT perfil de configuração) para se conectar ao cluster do Azure Databricks. Para obter informações sobre como configurar uma conexão, consulte a configuração de computação para o Databricks Connect.
pyspark
O shell do Spark é exibido, por exemplo:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Depois que o shell for iniciado, o spark objeto estará disponível para executar comandos do Apache Spark no cluster do Databricks. Execute um comando PySpark simples, como spark.range(1,10).show(). Se não houver erros, você se conectou com sucesso.
Usar o shell
Consulte Análise Interativa com o Shell do Spark para obter informações sobre como usar o shell Spark com Python para executar comandos em sua computação.
Use a variável interna spark para representar o SparkSession no cluster em execução, por exemplo:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações do DataFrame é executado no cluster no workspace remoto do Azure Databricks e as respostas de execução são enviadas de volta para o chamador local.
Parar o shell
Para interromper o shell do Spark, pressione Ctrl + d ou Ctrl + z, ou execute o comando quit() ou exit().