Partilhar via


Criar um pipeline controlado pelo código-fonte

Importante

O Lakeflow Pipelines Editor está em Visualização Pública.

No Azure Databricks, você pode controlar um pipeline e todo o código associado a ele. Ao controlar todos os arquivos associados ao pipeline, as alterações no código de transformação, no código de exploração e na configuração do pipeline são versionadas no Git e podem ser testadas no desenvolvimento e implantadas com confiança na produção.

Um pipeline controlado pela fonte oferece as seguintes vantagens:

  • Rastreabilidade: Capture todas as mudanças no histórico do Git.
  • Testagem: valide alterações de pipeline num espaço de trabalho de desenvolvimento antes de promover para um espaço de trabalho compartilhado de produção. Cada programador tem o seu próprio pipeline de desenvolvimento no seu próprio ramo de código numa pasta Git e no seu próprio esquema.
  • Colaboração: Quando o desenvolvimento e os testes individuais são concluídos, as alterações de código são enviadas para o pipeline de produção principal.
  • Governança: alinhe-se com os padrões corporativos de CI/CD e implantação.

O Azure Databricks permite que pipelines e seus arquivos de origem sejam controlados juntos usando Databricks Asset Bundles. Com os bundles, a configuração do pipeline é controlada pelo código-fonte na forma de arquivos de configuração YAML ao lado dos arquivos de origem Python ou SQL de um pipeline. Um pacote pode ter um ou vários pipelines, bem como outros tipos de recursos, tais como tarefas.

Esta página mostra como configurar um pipeline controlado pelo código-fonte usando o Databricks Asset Bundles. Para obter mais informações sobre pacotes, consulte O que são Databricks Asset Bundles?.

Requerimentos

Para criar um pipeline controlado pelo código-fonte, você já deve ter:

Criar um novo pipeline num pacote

Observação

O Databricks recomenda a criação de um pipeline controlado pelo código-fonte desde o início. Como alternativa, você pode adicionar um pipeline existente a um pacote que já é controlado pelo código-fonte. Consulte Migrar recursos existentes para um pacote.

Para criar um novo pipeline controlado pelo código-fonte:

  1. No espaço de trabalho, vá para o ícone de Plus.Novo>ícone de Pipeline.Pipeline ETL.

  2. Selecione o ícone do cubo de ficheiro.Configurar como um projeto controlado por código-fonte:

    Novo gasoduto controlado pela fonte

  3. Clique em Criar novo projeto e, em seguida, selecione uma pasta Git onde você deseja colocar seu código e configuração:

    Novo projeto

  4. Clique em Next.

  5. Digite o seguinte na caixa de diálogo Criar um pacote de ativos :

    • Nome do pacote: O nome do pacote.
    • Catálogo inicial: o nome do catálogo que contém o esquema a ser usado.
    • Usar um esquema pessoal: deixe esta caixa marcada se quiser isolar edições em um esquema pessoal, para que, quando os usuários em sua organização colaborarem no mesmo projeto, você não substitua as alterações uns dos outros no desenvolvimento.
    • Linguagem inicial: A linguagem inicial a ser usada para os arquivos de pipeline de exemplo do projeto, Python ou SQL.

    Novo pacote

  6. Clique em Criar e implantar. Um pacote com um pipeline é criado na pasta Git.

Explore o pacote de processamento

Em seguida, explore o conjunto de pipeline que foi criado.

O pacote, que está na pasta Git, contém arquivos de sistema do pacote e o databricks.yml arquivo, que define variáveis, URLs e permissões do espaço de trabalho de destino e outras configurações para o pacote. A resources pasta de um pacote é onde estão contidas as definições para recursos como pipelines.

Empacotar em uma pasta Git

Abra a resources pasta e clique no botão do editor de pipeline para visualizar o pipeline controlado pelo código-fonte:

Abrir editor de pipeline

Conjunto com árvore de pipeline

O pacote de pipeline de exemplo inclui os seguintes arquivos:

  • Um caderno de exemplo de exploração

  • Dois arquivos de código de exemplo que fazem transformações em tabelas

  • Um arquivo de código de exemplo que contém uma função de utilitário

  • Um arquivo YAML de configuração de trabalho que define o trabalho no pacote que executa o pipeline

  • Um arquivo YAML de configuração de pipeline que define o pipeline

    Importante

    Você deve editar esse arquivo para persistir permanentemente quaisquer alterações de configuração no pipeline, incluindo alterações feitas por meio da interface do usuário, caso contrário, as alterações na interface do usuário serão substituídas quando o pacote for reimplantado. Por exemplo, para definir um catálogo padrão diferente para o pipeline, edite o catalog campo neste arquivo de configuração.

  • Um arquivo LEIA-ME com detalhes adicionais sobre o pacote de pipeline de exemplo e instruções sobre como executar o pipeline

Para obter informações sobre arquivos de pipeline, consulte Navegador de recursos de pipeline.

Para obter mais informações sobre como criar e implantar alterações no pacote de pipeline, consulte Criar pacotes no espaço de trabalho e Implantar pacotes e executar fluxos de trabalho a partir do espaço de trabalho.

Executar a linha de processamento

Você pode executar transformações individuais ou todo o pipeline controlado pelo código-fonte:

  • Para executar e visualizar uma única transformação no pipeline, selecione o arquivo de transformação na árvore do navegador do espaço de trabalho para abri-lo no editor de arquivos. Na parte superior do ficheiro no editor, clique no botão Executar ficheiro.
  • Para executar todas as transformações no pipeline, clique no botão Executar pipeline no canto superior direito do espaço de trabalho Databricks.

Para obter mais informações sobre como executar pipelines, consulte Executar código de pipeline.

Atualizar o fluxo de trabalho

Você pode atualizar artefatos em seu pipeline ou adicionar explorações e transformações adicionais, mas então você vai querer enviar essas alterações para o GitHub. Clique no ícone Fork.ícone Git associado ao pacote de pipeline ou clique no menu kebab para a pasta e, em seguida, no Git... para selecionar quais alterações enviar. Consulte Confirmar e enviar alterações por push para o repositório Git remoto.

Enviar alterações para o Git

Além disso, quando você atualiza arquivos de configuração de pipeline ou adiciona ou remove arquivos do pacote, essas alterações não são propagadas para o espaço de trabalho de destino até que você implante explicitamente o pacote. Consulte Implantar pacotes e executar fluxos de trabalho a partir do espaço de trabalho.

Observação

O Databricks recomenda que você mantenha a configuração padrão para pipelines controlados pelo código-fonte. A configuração padrão é configurada para que você não precise editar a configuração do YAML do pacote de pipeline quando arquivos adicionais são adicionados por meio da interface do usuário.

Pipeline de atualização

Adicionar um pipeline existente a um pacote

Para adicionar um pipeline existente a um pacote, primeiro crie um pacote no espaço de trabalho e, em seguida, adicione a definição YAML do pipeline ao pacote, conforme descrito nas seguintes páginas:

Para obter informações sobre como migrar recursos para um pacote usando a CLI do Databricks, consulte Migrar recursos existentes para um pacote.

Recursos adicionais

Para obter tutoriais adicionais e material de referência para tubulações, consulte Lakeflow Spark Declarative Pipelines.