Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
Este artigo se aplica ao Databricks Connect 15.4 LTS e superior.
Este artigo descreve como criar um projeto em seu IDE, configurar seu ambiente virtual, instalar o Databricks Connect para Python e executar código na computação sem servidor em seu workspace do Databricks.
Este tutorial usa o Python 3.12 e o Databricks Connect 16.4 LTS. Para usar outras versões do Python do Databricks Connect, elas devem ser compatíveis. Consulte a matriz de suporte de versão.
Requisitos
Para concluir este tutorial, os seguintes requisitos devem ser atendidos:
- Seu workspace, ambiente local e computação atendem aos requisitos do Databricks Connect para Python. Consulte os requisitos de uso do Databricks Connect.
- A computação sem servidor está habilitada em seu workspace. Consulte Conectar-se ao computador sem servidor.
- Você tem o Python 3.12 instalado.
- Você tem um IDE instalado, como o Visual Studio Code.
- Você tem a CLI do Databricks instalada em seu computador local. Consulte Instalar ou atualizar a CLI do Databricks.
Etapa 1: Configurar a autenticação do Databricks
Este tutorial usa a autenticação U2M (usuário para máquina) do Databricks OAuth e um perfil de configuração do Databricks para autenticação no workspace do Databricks.
Use o CLI do Databricks para iniciar o gerenciamento local de tokens OAuth executando o seguinte comando para cada workspace de destino. No comando a seguir, substitua
<workspace-url>pela URL da instância do workspace do Databricks, por exemplohttps://dbc-a1b2345c-d6e7.cloud.databricks.com.databricks auth login --host <workspace-url>A CLI do Databricks solicita que você salve as informações inseridas como um perfil de configuração do Databricks. Pressione
Enterpara aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. O Databricks recomenda usarDEFAULTcomo nome de perfil.No navegador da Web, conclua as instruções na tela para fazer logon no workspace do Databricks.
Etapa 2: Criar um novo ambiente virtual do Python
Crie sua pasta de projeto e abra-a no IDE. Por exemplo, no menu principal do Visual Studio Code, clique emAbrir Pasta>Aberta do >
Abra uma janela de terminal na raiz da pasta do projeto. Por exemplo, no menu principal do Visual Studio Code, clique em Exibir>Terminal.
Crie um ambiente virtual para o projeto chamado
venvna raiz da pasta do projeto executando o seguinte comando no terminal:python3.12 -m venv .venvAtive seu ambiente virtual:
# Linux/Mac source .venv/bin/activate# Windows .venv\Scripts\activate
Etapa 3: Instalar o Databricks Connect
Instale o Databricks Connect. Para obter informações sobre a versão mais recente lançada do Databricks Connect 16.4, consulte Databricks Connect for Databricks Runtime 16.4.
pip install "databricks-connect==16.4.*"
Etapa 4: Adicionar código e executar
Adicionar um novo arquivo
main.pyPython ao seu projetoInsira o código a seguir no arquivo, substituindo o espaço reservado
<profile-name>pelo nome do seu perfil de configuração da Etapa 1 e salve o arquivo. O nome do perfil de configuração padrão éDEFAULT.from databricks.connect import DatabricksSession spark = DatabricksSession.builder.serverless().profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Execute o código usando o seguinte comando:
python3 main.pyCinco linhas da tabela são retornadas:
+--------------------+---------------------+-------------+-----------+---------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-16 22:40:45| 2016-02-16 22:59:25| 5.35| 18.5| 10003| 11238| | 2016-02-05 16:06:44| 2016-02-05 16:26:03| 6.5| 21.5| 10282| 10001| | 2016-02-08 07:39:25| 2016-02-08 07:44:14| 0.9| 5.5| 10119| 10003| | 2016-02-29 22:25:33| 2016-02-29 22:38:09| 3.5| 13.5| 10001| 11222| | 2016-02-03 17:21:02| 2016-02-03 17:23:24| 0.3| 3.5| 10028| 10028| +--------------------+---------------------+-------------+-----------+----------+-----------+
Você executou com êxito sua primeira consulta na computação sem servidor do Databricks usando o Databricks Connect do seu IDE.
Etapa 5: preparar a produção de código
Para cenários de produção, é importante evitar o uso de especificações de computação no construtor de sessão spark. Por exemplo, se você implantar seu código em um cluster clássico: Standard ou Dedicated usando a .serverless() API no construtor de sessões do Spark, uma nova sessão spark sem servidor será criada usando o cluster clássico como cliente.
Para tornar seu código flexível e pronto para produção, a sessão do Spark não deve conter parâmetros.
spark = DatabricksSession.builder.getOrCreate()
No entanto, quando esse código é executado no Databricks, a sessão global padrão do Spark da computação do Databricks é usada.
Para habilitar a DatabricksSession.builder computação sem servidor em seu IDE, use o perfil de configuração DEFAULT, que é selecionado pelo momento em que nenhum parâmetro é especificado:
Crie um perfil de configuração chamado
DEFAULTusando as instruções da etapa 1.Use um editor de texto para abrir o
.databrickscfgarquivo, que é encontrado em:Sua
$HOMEpasta inicial do usuário no Unix, Linux ou macOS:~/.databrickscfgouSua
%USERPROFILE%pasta (sua página inicial do usuário) no Windows. Por exemplo, para macOS:nano ~/.databrickscfg
Adicione
serverless_compute_id = autoaoDEFAULTperfil:[DEFAULT] host = https://my-workspace.cloud.databricks.com auth_type = databricks-cli serverless_compute_id = autoSalve as alterações e saia do editor.
Modifique seu código para usar uma sessão geral do Spark e execute-a:
from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)python3 main.py
Você executou seu código pronto para produção com êxito na computação sem servidor do Databricks usando o Databricks Connect do seu IDE usando o perfil de configuração PADRÃO.
Dica
Você também pode usar variáveis de ambiente para definir a conexão com uma computação específica do Databricks:
- Sem servidor:
DATABRICKS_SERVERLESS_COMPUTE_ID=auto - Clássico:
DATABRICKS_CLUSTER_ID=<your_cluster_id>