Compartilhar via


Criar um pipeline controlado pela origem

Importante

O Editor do Lakeflow Pipelines está em Visualização Pública.

No Azure Databricks, você pode controlar o código-fonte de um pipeline e todo o código associado a ele. Ao controlar todos os arquivos associados ao pipeline, as alterações no código de transformação, no código de exploração e na configuração de pipeline são todas feitas em versão no Git e podem ser testadas no desenvolvimento e implantadas com confiança na produção.

Um pipeline controlado pela origem oferece as seguintes vantagens:

  • Rastreabilidade: capturar todas as alterações no histórico do Git.
  • Teste: Validar mudanças na pipeline em um workspace de desenvolvimento antes de promover para um workspace de produção compartilhado. Cada desenvolvedor tem seu próprio pipeline de desenvolvimento em seu próprio branch de código em uma pasta Git e em seu próprio esquema.
  • Colaboração: Quando o desenvolvimento e o teste individuais são concluídos, as alterações de código são enviadas para a linha principal de produção.
  • Governança: alinhe-se aos padrões de CI/CD e de implantação da empresa.

O Azure Databricks permite que pipelines e seus arquivos de origem sejam controlados por controle de versão juntos, usando os Databricks Asset Bundles. Com os pacotes, a configuração de pipeline é controlada pela origem na forma de arquivos de configuração YAML junto com os arquivos de origem Python ou SQL de um pipeline. Um conjunto pode ter um ou muitos pipelines, bem como outros tipos de recursos, como tarefas.

Esta página mostra como configurar um pipeline controlado pela origem usando pacotes de ativos do Databricks. Para obter mais informações sobre pacotes, consulte o que são pacotes de ativos do Databricks?.

Requirements

Para criar um pipeline controlado pela origem, você já deve ter:

Criar um novo pipeline em um pacote

Observação

O Databricks recomenda a criação de um pipeline controlado pela origem desde o início. Como alternativa, você pode adicionar um pipeline existente a um pacote já controlado pela origem. Consulte Migrar recursos existentes para um pacote.

Para criar um pipeline controlado pela origem:

  1. No espaço de trabalho, vá para o ícone de adição.Novo>ícone de pipeline.Pipeline ETL.

  2. Selecione o ícone de cubo de arquivo.Configuração como um projeto controlado pela origem:

    Novo pipeline com controle de fonte

  3. Clique em Criar novo projeto e selecione uma pasta git na qual você deseja colocar seu código e configuração:

    Novo projeto

  4. Clique em Próximo.

  5. Insira o seguinte na caixa de diálogo Criar um pacote de ativos :

    • Nome do pacote: o nome do pacote.
    • Catálogo inicial: o nome do catálogo que contém o esquema a ser usado.
    • Use um esquema pessoal: deixe esta caixa marcada se quiser isolar edições em um esquema pessoal, para que, quando os usuários da sua organização colaborarem no mesmo projeto, você não substitua as alterações uns dos outros no desenvolvimento.
    • Idioma inicial: o idioma inicial a ser usado para os arquivos de pipeline de exemplo do projeto, Python ou SQL.

    Novo pacote

  6. Clique em Criar e implantar. Um pacote com um pipeline é criado na pasta Git.

Explorar o pacote de pipeline

Em seguida, explore o pacote de pipeline que foi criado.

O pacote, que está na pasta Git, contém arquivos de sistema do pacote e o arquivo databricks.yml, que define variáveis, URLs do workspace de destino, permissões e outras configurações para o pacote. A pasta resources de um pacote é onde estão contidas as definições para recursos como pipelines.

Empacotar em uma pasta Git

Abra a resources pasta e clique no botão do editor de pipeline para exibir o pipeline controlado pela origem:

Abrir o editor de pipeline

Agrupar com árvore de pipeline

O pacote de pipeline de exemplo inclui os seguintes arquivos:

  • Um caderno de anotações de exploração de exemplo

  • Dois arquivos de código de exemplo que fazem transformações em tabelas

  • Um arquivo de código de exemplo que contém uma função de utilitário

  • Um arquivo YAML de configuração de tarefa que define a operação no pacote que executa o pipeline

  • Um arquivo YAML que define a configuração do pipeline

    Importante

    Você deve editar este arquivo para persistir permanentemente as alterações de configuração no pipeline, incluindo as alterações feitas por meio da interface do usuário (UI), caso contrário, as alterações da UI serão substituídas quando o pacote for implantado novamente. Por exemplo, para definir um catálogo padrão diferente para o pipeline, edite o catalog campo neste arquivo de configuração.

  • Um arquivo README com detalhes adicionais sobre o pacote de pipeline de exemplo e instruções sobre como executar o pipeline

Para obter informações sobre arquivos de pipeline, consulte o explorador de recursos do Pipeline.

Para obter mais informações sobre como criar e implantar alterações no pacote de pipeline, consulte Autoria de pacotes no workspace e Implantar pacotes e executar fluxos de trabalho no workspace.

Executar o pipeline

Você pode executar transformações individuais ou todo o pipeline controlado pela origem:

  • Para executar e visualizar uma única transformação no pipeline, selecione o arquivo de transformação na árvore do navegador do workspace para abri-lo no editor de arquivos. No editor, na parte superior do arquivo, clique no botão de execução do arquivo.
  • Para executar todas as transformações no pipeline, clique no botão Executar pipeline no canto superior direito do workspace do Databricks.

Para mais informações sobre como executar pipelines, consulte Código de execução de pipeline.

Atualizar o pipeline

Você pode atualizar artefatos em seu pipeline ou adicionar explorações e transformações adicionais, mas, em seguida, você desejará enviar essas alterações por push para o GitHub. Clique no ícone Fork.ícone Git associado ao pacote de pipeline ou clique no ícone kebab para a pasta e em seguida em Git... para selecionar quais alterações serão enviadas por push. Consulte Confirmar e enviar por push alterações para o repositório Git remoto.

Enviar alterações por push para o Git

Além disso, quando você atualiza arquivos de configuração de pipeline ou adiciona ou remove arquivos do pacote, essas alterações não são propagadas para o workspace de destino até que você implante explicitamente o pacote. Consulte Implantar pacotes e executar fluxos de trabalho do espaço de trabalho.

Observação

O Databricks recomenda que você mantenha a configuração padrão para pipelines controlados pela origem. A configuração padrão é configurada para que você não precise editar a configuração yaml do pacote de pipeline quando arquivos adicionais são adicionados por meio da interface do usuário.

Atualizar pipeline

Adicionar um pipeline existente a um pacote

Para adicionar um pipeline existente a um pacote, primeiro crie um pacote no workspace e adicione a definição de YAML do pipeline ao pacote, conforme descrito nas seguintes páginas:

Para obter informações sobre como migrar recursos para um pacote usando a CLI do Databricks, consulte Migrar recursos existentes para um pacote.

Recursos adicionais

Para obter tutoriais adicionais e material de referência para pipelines, consulte Lakeflow Spark Declarative Pipelines.