Tutorial: Executar código Python na computação sem servidor

Observação

Este artigo se aplica ao Databricks Connect 15.4 LTS e superior.

Este artigo descreve como criar um projeto em seu IDE, configurar seu ambiente virtual, instalar o Databricks Connect para Python e executar código na computação sem servidor em seu workspace do Databricks.

Este tutorial usa o Python 3.12 e o Databricks Connect 16.4 LTS. Para usar outras versões do Python do Databricks Connect, elas devem ser compatíveis. Consulte a matriz de suporte de versão.

Requisitos

Para concluir este tutorial, os seguintes requisitos devem ser atendidos:

Seu workspace, ambiente local e computação atendem aos requisitos do Databricks Connect para Python. Consulte os requisitos de uso do Databricks Connect.
A computação sem servidor está habilitada em seu workspace. Consulte Conectar-se ao computador sem servidor.
Você tem o Python 3.12 instalado.
Você tem um IDE instalado, como o Visual Studio Code.
Você tem a CLI do Databricks instalada em seu computador local. Consulte Instalar ou atualizar a CLI do Databricks.

Etapa 1: Configurar a autenticação do Databricks

Este tutorial usa a autenticação U2M (usuário para máquina) do Databricks OAuth e um perfil de configuração do Databricks para autenticação no workspace do Databricks.

Use o CLI do Databricks para iniciar o gerenciamento local de tokens OAuth executando o seguinte comando para cada workspace de destino. No comando a seguir, substitua <workspace-url> pela URL da instância do workspace do Databricks, por exemplo https://dbc-a1b2345c-d6e7.cloud.databricks.com.
```
databricks auth login --host <workspace-url>
```
A CLI do Databricks solicita que você salve as informações inseridas como um perfil de configuração do Databricks. Pressione Enter para aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. O Databricks recomenda usar DEFAULT como nome de perfil.
No navegador da Web, conclua as instruções na tela para fazer logon no workspace do Databricks.

Etapa 2: Criar um novo ambiente virtual do Python

Crie sua pasta de projeto e abra-a no IDE. Por exemplo, no menu principal do Visual Studio Code, clique emAbrir Pasta>Aberta do >
Abra uma janela de terminal na raiz da pasta do projeto. Por exemplo, no menu principal do Visual Studio Code, clique em Exibir>Terminal.
Crie um ambiente virtual para o projeto chamado venv na raiz da pasta do projeto executando o seguinte comando no terminal:
```
python3.12 -m venv .venv
```

Ative seu ambiente virtual:

# Linux/Mac
source .venv/bin/activate

# Windows
.venv\Scripts\activate

Etapa 3: Instalar o Databricks Connect

Instale o Databricks Connect. Para obter informações sobre a versão mais recente lançada do Databricks Connect 16.4, consulte Databricks Connect for Databricks Runtime 16.4.

pip install "databricks-connect==16.4.*"

Etapa 4: Adicionar código e executar

Adicionar um novo arquivo main.py Python ao seu projeto
Insira o código a seguir no arquivo, substituindo o espaço reservado <profile-name> pelo nome do seu perfil de configuração da Etapa 1 e salve o arquivo. O nome do perfil de configuração padrão é DEFAULT.
```
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.serverless().profile("<profile-name>").getOrCreate()

df = spark.read.table("samples.nyctaxi.trips")
df.show(5)
```

Execute o código usando o seguinte comando:

python3 main.py

Cinco linhas da tabela são retornadas:

+--------------------+---------------------+-------------+-----------+---------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-16 22:40:45|  2016-02-16 22:59:25|         5.35|       18.5|     10003|      11238|
| 2016-02-05 16:06:44|  2016-02-05 16:26:03|          6.5|       21.5|     10282|      10001|
| 2016-02-08 07:39:25|  2016-02-08 07:44:14|          0.9|        5.5|     10119|      10003|
| 2016-02-29 22:25:33|  2016-02-29 22:38:09|          3.5|       13.5|     10001|      11222|
| 2016-02-03 17:21:02|  2016-02-03 17:23:24|          0.3|        3.5|     10028|      10028|
+--------------------+---------------------+-------------+-----------+----------+-----------+

Você executou com êxito sua primeira consulta na computação sem servidor do Databricks usando o Databricks Connect do seu IDE.

Etapa 5: preparar a produção de código

Para cenários de produção, é importante evitar o uso de especificações de computação no construtor de sessão spark. Por exemplo, se você implantar seu código em um cluster clássico: Standard ou Dedicated usando a .serverless() API no construtor de sessões do Spark, uma nova sessão spark sem servidor será criada usando o cluster clássico como cliente.

Para tornar seu código flexível e pronto para produção, a sessão do Spark não deve conter parâmetros.

spark = DatabricksSession.builder.getOrCreate()

No entanto, quando esse código é executado no Databricks, a sessão global padrão do Spark da computação do Databricks é usada.

Para habilitar a DatabricksSession.builder computação sem servidor em seu IDE, use o perfil de configuração DEFAULT, que é selecionado pelo momento em que nenhum parâmetro é especificado:

Crie um perfil de configuração chamado DEFAULT usando as instruções da etapa 1.
Use um editor de texto para abrir o .databrickscfg arquivo, que é encontrado em:
- Sua $HOME pasta inicial do usuário no Unix, Linux ou macOS: ~/.databrickscfgou
- Sua %USERPROFILE% pasta (sua página inicial do usuário) no Windows. Por exemplo, para macOS:
```
nano ~/.databrickscfg
```

Adicione serverless_compute_id = auto ao DEFAULT perfil:

[DEFAULT]
host                  = https://my-workspace.cloud.databricks.com
auth_type             = databricks-cli
serverless_compute_id = auto

Salve as alterações e saia do editor.

Modifique seu código para usar uma sessão geral do Spark e execute-a:

from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

df = spark.read.table("samples.nyctaxi.trips")
df.show(5)

python3 main.py

Você executou seu código pronto para produção com êxito na computação sem servidor do Databricks usando o Databricks Connect do seu IDE usando o perfil de configuração PADRÃO.

Dica

Você também pode usar variáveis de ambiente para definir a conexão com uma computação específica do Databricks:

Sem servidor: DATABRICKS_SERVERLESS_COMPUTE_ID=auto
Clássico: DATABRICKS_CLUSTER_ID=<your_cluster_id>

Comentários

Esta página foi útil?

Last updated on 2025-11-07