Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
O Editor do Lakeflow Pipelines está em Visualização Pública.
No Azure Databricks, você pode controlar o código-fonte de um pipeline e todo o código associado a ele. Ao controlar todos os arquivos associados ao pipeline, as alterações no código de transformação, no código de exploração e na configuração de pipeline são todas feitas em versão no Git e podem ser testadas no desenvolvimento e implantadas com confiança na produção.
Um pipeline controlado pela origem oferece as seguintes vantagens:
- Rastreabilidade: capturar todas as alterações no histórico do Git.
- Teste: Validar mudanças na pipeline em um workspace de desenvolvimento antes de promover para um workspace de produção compartilhado. Cada desenvolvedor tem seu próprio pipeline de desenvolvimento em seu próprio branch de código em uma pasta Git e em seu próprio esquema.
- Colaboração: Quando o desenvolvimento e o teste individuais são concluídos, as alterações de código são enviadas para a linha principal de produção.
- Governança: alinhe-se aos padrões de CI/CD e de implantação da empresa.
O Azure Databricks permite que pipelines e seus arquivos de origem sejam controlados por controle de versão juntos, usando os Databricks Asset Bundles. Com os pacotes, a configuração de pipeline é controlada pela origem na forma de arquivos de configuração YAML junto com os arquivos de origem Python ou SQL de um pipeline. Um conjunto pode ter um ou muitos pipelines, bem como outros tipos de recursos, como tarefas.
Esta página mostra como configurar um pipeline controlado pela origem usando pacotes de ativos do Databricks. Para obter mais informações sobre pacotes, consulte o que são pacotes de ativos do Databricks?.
Requirements
Para criar um pipeline controlado pela origem, você já deve ter:
- Uma pasta Git criada em seu workspace e configurada. Uma pasta git permite que usuários individuais criem e testem alterações antes de emiti-las em um repositório Git. Consulte as pastas git do Azure Databricks.
- O Editor do Lakeflow Pipelines foi habilitado. A interface do usuário descrita neste tutorial só está disponível nesta experiência de editor. Confira Desenvolver e depurar pipelines de ETL com o Editor do Lakeflow Pipelines.
Criar um novo pipeline em um pacote
Observação
O Databricks recomenda a criação de um pipeline controlado pela origem desde o início. Como alternativa, você pode adicionar um pipeline existente a um pacote já controlado pela origem. Consulte Migrar recursos existentes para um pacote.
Para criar um pipeline controlado pela origem:
No espaço de trabalho, vá para o
Novo>
Pipeline ETL.
Selecione
Configuração como um projeto controlado pela origem:
Clique em Criar novo projeto e selecione uma pasta git na qual você deseja colocar seu código e configuração:
Clique em Próximo.
Insira o seguinte na caixa de diálogo Criar um pacote de ativos :
- Nome do pacote: o nome do pacote.
- Catálogo inicial: o nome do catálogo que contém o esquema a ser usado.
- Use um esquema pessoal: deixe esta caixa marcada se quiser isolar edições em um esquema pessoal, para que, quando os usuários da sua organização colaborarem no mesmo projeto, você não substitua as alterações uns dos outros no desenvolvimento.
- Idioma inicial: o idioma inicial a ser usado para os arquivos de pipeline de exemplo do projeto, Python ou SQL.
Clique em Criar e implantar. Um pacote com um pipeline é criado na pasta Git.
Explorar o pacote de pipeline
Em seguida, explore o pacote de pipeline que foi criado.
O pacote, que está na pasta Git, contém arquivos de sistema do pacote e o arquivo databricks.yml, que define variáveis, URLs do workspace de destino, permissões e outras configurações para o pacote. A pasta resources de um pacote é onde estão contidas as definições para recursos como pipelines.
Abra a resources pasta e clique no botão do editor de pipeline para exibir o pipeline controlado pela origem:
O pacote de pipeline de exemplo inclui os seguintes arquivos:
Um caderno de anotações de exploração de exemplo
Dois arquivos de código de exemplo que fazem transformações em tabelas
Um arquivo de código de exemplo que contém uma função de utilitário
Um arquivo YAML de configuração de tarefa que define a operação no pacote que executa o pipeline
Um arquivo YAML que define a configuração do pipeline
Importante
Você deve editar este arquivo para persistir permanentemente as alterações de configuração no pipeline, incluindo as alterações feitas por meio da interface do usuário (UI), caso contrário, as alterações da UI serão substituídas quando o pacote for implantado novamente. Por exemplo, para definir um catálogo padrão diferente para o pipeline, edite o
catalogcampo neste arquivo de configuração.Um arquivo README com detalhes adicionais sobre o pacote de pipeline de exemplo e instruções sobre como executar o pipeline
Para obter informações sobre arquivos de pipeline, consulte o explorador de recursos do Pipeline.
Para obter mais informações sobre como criar e implantar alterações no pacote de pipeline, consulte Autoria de pacotes no workspace e Implantar pacotes e executar fluxos de trabalho no workspace.
Executar o pipeline
Você pode executar transformações individuais ou todo o pipeline controlado pela origem:
- Para executar e visualizar uma única transformação no pipeline, selecione o arquivo de transformação na árvore do navegador do workspace para abri-lo no editor de arquivos. No editor, na parte superior do arquivo, clique no botão de execução do arquivo.
- Para executar todas as transformações no pipeline, clique no botão Executar pipeline no canto superior direito do workspace do Databricks.
Para mais informações sobre como executar pipelines, consulte Código de execução de pipeline.
Atualizar o pipeline
Você pode atualizar artefatos em seu pipeline ou adicionar explorações e transformações adicionais, mas, em seguida, você desejará enviar essas alterações por push para o GitHub. Clique no ícone Git associado ao pacote de pipeline ou clique no ícone kebab para a pasta e em seguida em Git... para selecionar quais alterações serão enviadas por push. Consulte Confirmar e enviar por push alterações para o repositório Git remoto.
Além disso, quando você atualiza arquivos de configuração de pipeline ou adiciona ou remove arquivos do pacote, essas alterações não são propagadas para o workspace de destino até que você implante explicitamente o pacote. Consulte Implantar pacotes e executar fluxos de trabalho do espaço de trabalho.
Observação
O Databricks recomenda que você mantenha a configuração padrão para pipelines controlados pela origem. A configuração padrão é configurada para que você não precise editar a configuração yaml do pacote de pipeline quando arquivos adicionais são adicionados por meio da interface do usuário.
Adicionar um pipeline existente a um pacote
Para adicionar um pipeline existente a um pacote, primeiro crie um pacote no workspace e adicione a definição de YAML do pipeline ao pacote, conforme descrito nas seguintes páginas:
Para obter informações sobre como migrar recursos para um pacote usando a CLI do Databricks, consulte Migrar recursos existentes para um pacote.
Recursos adicionais
Para obter tutoriais adicionais e material de referência para pipelines, consulte Lakeflow Spark Declarative Pipelines.