Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Os Pacotes de Ativos Databricks, também conhecidos simplesmente como pacotes, permitem validar, implantar e executar recursos do Azure Databricks programaticamente, como Lakeflow Spark Declarative Pipelines. Consulte O que são Databricks Asset Bundles?.
Esta página descreve como criar um pacote para gerenciar programaticamente um pipeline. Veja Lakeflow Spark Declarative Pipelines. O pacote é criado usando o modelo de pacote padrão Databricks Asset Bundles para Python, que define um pipeline ETL e um trabalho para executá-lo. Em seguida, você valida, implanta e executa o pipeline implantado em seu espaço de trabalho do Azure Databricks.
Gorjeta
Se você tiver pipelines existentes que foram criados usando a interface do usuário ou a API do Azure Databricks que deseja mover para pacotes, deverá defini-los nos arquivos de configuração de um pacote. O Databricks recomenda que você primeiro crie um pacote usando as etapas abaixo e, em seguida, adicione configuração e outras fontes ao pacote. Consulte Recuperar uma definição de pipeline existente usando a interface do usuário.
Requisitos
- Databricks CLI versão 0.276.0 ou superior. Para verificar a versão instalada da CLI do Databricks, execute o comando
databricks -v. Para instalar a CLI do Databricks, consulte Instalar ou atualizar a CLI do Databricks. - uv é necessário para executar testes e instalar dependências para este projeto a partir de um IDE.
- O espaço de trabalho remoto deve ter arquivos de espaço de trabalho ativados. Consulte O que são arquivos de espaço de trabalho?.
- Um catálogo existente para tabelas em processamento. Ver Criar catálogos.
(Opcional) Instalar um módulo Python para suportar o desenvolvimento de pipeline local
O Databricks fornece um módulo Python para ajudar no desenvolvimento local do código Lakeflow Spark Declarative Pipelines, fornecendo verificação de sintaxe, preenchimento automático e verificação de tipo de dados enquanto você escreve código no IDE.
O módulo Python para desenvolvimento local está disponível no PyPi. Para instalar o módulo, consulte Python stub for DLT.
Etapa 1: configurar a autenticação
Primeiro, configure a autenticação entre a CLI do Databricks em sua máquina de desenvolvimento e seu espaço de trabalho do Azure Databricks. Esta página pressupõe que você deseja usar a autenticação de usuário para máquina (U2M) OAuth e um perfil de configuração do Azure Databricks correspondente nomeado DEFAULT para autenticação.
Nota
A autenticação U2M é apropriada para experimentar essas etapas em tempo real. Para fluxos de trabalho totalmente automatizados, a Databricks recomenda que utilize a autenticação OAuth máquina-a-máquina (M2M). Consulte as instruções de configuração da autenticação M2M em Autorizar o acesso da entidade de serviço ao Azure Databricks com OAuth.
Use a CLI do Databricks para iniciar o gerenciamento de token OAuth localmente executando o seguinte comando para cada espaço de trabalho de destino.
No comando a seguir, substitua
<workspace-url>pela URL por espaço de trabalho do Azure Databricks, por exemplohttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --host <workspace-url>A CLI do Databricks solicita que você salve as informações inseridas como um perfil de configuração do Azure Databricks. Pressione
Enterpara aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome é substituído pelas informações que você inseriu. Você pode usar perfis para alternar rapidamente seu contexto de autenticação em vários espaços de trabalho.Para obter uma lista de quaisquer perfis existentes, em um terminal ou prompt de comando separado, use a CLI do Databricks para executar o comando
databricks auth profiles. Para visualizar as configurações existentes de um perfil específico, execute o comandodatabricks auth env --profile <profile-name>.No navegador da Web, conclua as instruções na tela para fazer logon no espaço de trabalho do Azure Databricks.
Para exibir o valor atual do token OAuth de um perfil e o carimbo de data/hora de expiração do token, execute um dos seguintes comandos:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Se tiver vários perfis com o mesmo
--hostvalor, talvez seja necessário especificar--hoste-pem conjunto para ajudar a CLI do Databricks a encontrar a informação correta do token OAuth.
Etapa 2: Criar o pacote
Inicialize um pacote usando o modelo de projeto de pacote Python padrão.
Utilize o terminal para aceder a um diretório na máquina de desenvolvimento local que irá conter o pacote gerado pelo modelo.
Use a CLI do Databricks para executar o
bundle initcomando:databricks bundle initPara
Template to use, deixe o valor padrão dedefault-pythonpressionandoEnter.Para
Unique name for this project, deixe o valor padrão demy_project, ou digite um valor diferente e pressioneEnter. Isso determina o nome do diretório raiz para este pacote. Este diretório raiz é criado dentro do seu diretório de trabalho atual.Para
Include a job that runs a notebook, selecionenoe pressioneEnter. (O caderno de exemplo associado a esta opção não tem código de pipeline.)Para
Include an ETL pipeline, deixe o valor padrão deyespressionandoEnter. Isso adiciona um código de pipeline de exemplo e uma definição de pipeline.Para
Include a stub (sample) Python package, selecionenoe pressioneEnter.Para
Use serverless, selecioneyese pressioneEnter. Isso instrui a CLI do Databricks a configurar seu pacote para ser executado em computação sem servidor.Para
Default catalog for any tables created by this project [hive_metastore], insira o nome de um catálogo Unity Catalog existente.Para
Use a personal schema for each user working on this project., selecioneyes.
Passo 3: Explore o pacote
Para exibir os arquivos que o modelo gerou, alterne para o diretório raiz do pacote recém-criado. Os ficheiros de particular interesse incluem o seguinte:
-
databricks.yml: Este arquivo especifica o nome programático do pacote, inclui referências aos arquivos do pacote, define variáveis de catálogo e esquema e especifica configurações para espaços de trabalho de destino. -
resources/sample_job.ymleresources/<project-name>_etl_pipeline.yml: Esses arquivos definem o trabalho que contém uma tarefa de atualização do pipeline e as configurações do pipeline. Para obter informações sobre configurações de pipeline, consulte pipeline. -
src/: Esta pasta contém os arquivos de origem, explorações e transformações do pipeline de exemplo. -
tests/efixtures/: Essas pastas contêm testes unitários de exemplo para o pipeline e configurações para conjuntos de dados. -
README.md: Este arquivo contém informações adicionais sobre como começar e usar este modelo de pacote.
Etapa 4: Validar a configuração do pacote
Agora verifique se a configuração do pacote é válida.
No diretório raiz, use a CLI do Databricks para executar o
bundle validatecomando:databricks bundle validateSe um resumo da configuração do pacote for retornado, a validação será bem-sucedida. Se algum erro for retornado, corrija-os e repita esta etapa.
Etapa 5: Implantar o pacote no espaço de trabalho remoto
Em seguida, implante o pacote em seu espaço de trabalho remoto do Azure Databricks e verifique o pipeline em seu espaço de trabalho.
Na raiz do pacote, use a CLI do Databricks para executar o comando
bundle deploy:databricks bundle deploy --target devNota
O modelo padrão inclui um trabalho que executa o pipeline todos os dias, mas isso é pausado para o modo de implantação de destino
dev. Consulte Modos de implantação do Databricks Asset Bundle.Confirme se o pacote foi implantado:
- Na barra lateral do seu espaço de trabalho do Azure Databricks, clique em Espaço de trabalho.
- Clique na pasta Usuários >
<your-username>>.bundlee localize seu projeto de pacote.
Verifique se a sua linha de processamento foi criada:
- Na barra lateral do espaço de trabalho do Azure Databricks, clique em Trabalhos & Pipelines.
- Opcionalmente, selecione os filtros Pipelines e Owned by me .
- Clique em [dev
<your-username>]<project-name>_etl.
Se você fizer alterações no pacote após esta etapa, repita as etapas 4 a 5 para verificar se a configuração do pacote ainda é válida e, em seguida, reimplantar o projeto.
Etapa 6: Executar o pipeline de dados implantado
Agora acione uma execução do pipeline em seu espaço de trabalho a partir da linha de comando.
No diretório raiz, use a CLI do Databricks para executar o
bundle runcomando, substituindo<project-name>pelo nome do seu projeto:databricks bundle run --target dev <project-name>_etlCopie o valor de
Update URLque aparece no seu terminal e cole-o no seu navegador para abrir o seu espaço de trabalho do Azure Databricks.Em seu espaço de trabalho do Azure Databricks, depois que a execução do pipeline for concluída com êxito, clique nas exibições materializadas para ver os detalhes de cada exibição.
Se você fizer alterações no pacote após esta etapa, repita as etapas 4 a 6 para verificar se a configuração do pacote ainda é válida, reimplantar o projeto e executar o projeto reimplantado.
Etapa 7: Executar testes
Finalmente, use pytest para executar testes localmente:
uv run pytest
Passo 8: Limpar
Nesta etapa, você exclui o pacote implantado e o pipeline do seu espaço de trabalho.
No diretório raiz, use a CLI do Databricks para executar o
bundle destroycomando:databricks bundle destroy --target devQuando solicitado a destruir permanentemente os recursos, o pipeline e as tabelas e exibições gerenciadas pelo pipeline, digite
ye pressioneEnter.Se você também quiser excluir o pacote da sua máquina de desenvolvimento, agora você pode excluir o diretório do projeto local.