Partilhar via


Criar pacotes no espaço de trabalho

Os Databricks Asset Bundles podem ser criados e modificados diretamente no espaço de trabalho.

Para obter os requisitos para usar pacotes no espaço de trabalho, consulte Databricks Asset Bundles nos requisitos do espaço de trabalho.

Para obter mais informações sobre pacotes, consulte O que são Databricks Asset Bundles?.

Criar um pacote

Para criar um pacote no espaço de trabalho Databricks:

  1. Navegue até a pasta Git onde você deseja criar seu pacote.

  2. Clique no botão Criar e, em seguida, clique em Pacote de ativos. Como alternativa, clique com o botão direito do mouse na pasta Git ou no kebab associado na árvore do espaço de trabalho e clique em Criar>pacote de ativos:

    Criar um pacote de ativos

  3. Na caixa de diálogo Criar um pacote de ativos , dê um nome ao pacote de ativos, como totally-awesome-bundle. O nome do pacote só pode conter letras, números, traços e sublinhados.

  4. Em Template, escolha se deseja criar um pacote vazio, um bundle que execute um bloco de anotações Python de exemplo ou um bundle que execute SQL. Se você tiver o Lakeflow Pipelines Editor habilitado, também verá uma opção para criar um projeto de pipeline ETL.

    Caixa de diálogo Criar novo pacote de ativos

  5. Alguns modelos requerem configuração adicional. Clique em Avançar para concluir a configuração do projeto.

    Template Opções de configuração
    Oleodutos declarativos Lakeflow Spark
    • Catálogo padrão a ser usado para os dados do pipeline
    • Usar esquema pessoal (recomendado) para cada usuário que colabora neste pacote
    • Idioma inicial para os arquivos de código no pipeline
    Python padrão
    • Incluir um bloco de notas de exemplo
    • Incluir um pipeline de exemplo
    • Incluir um pacote Python de exemplo
    • Usar computação sem servidor
    SQL padrão
    • Caminho do SQL warehouse
    • Catálogo inicial
    • Usar esquema pessoal
    • Esquema inicial durante o desenvolvimento
  6. Clique em Criar e implantar.

Isso cria um pacote inicial na pasta Git, que inclui os arquivos para o modelo de projeto selecionado, um .gitignore arquivo de configuração do Git e o arquivo Databricks Asset Bundles databricks.yml necessário. O databricks.yml arquivo contém a configuração principal para o pacote. Para obter detalhes, consulte Configuração do Databricks Asset Bundle.

Novo pacote de ativos

Quaisquer alterações feitas nos arquivos dentro do pacote podem ser sincronizadas com o repositório remoto associado à pasta Git. Uma pasta Git pode conter muitos pacotes.

Adicionar novos arquivos a um pacote

Um pacote contém o ficheiro databricks.yml que define as configurações de implantação e de espaço de trabalho, ficheiros de origem, como notebooks, ficheiros Python e de teste, assim como definições e configurações para recursos do Databricks, tais como os Lakeflow Jobs e as Lakeflow Spark Declarative Pipelines. Semelhante a qualquer pasta de espaço de trabalho, você pode adicionar novos arquivos ao seu pacote.

Sugestão

Para abrir uma nova guia para a visualização do pacote que permite modificar os arquivos do pacote, navegue até a pasta do pacote no espaço de trabalho e clique em Abrir no editor à direita do nome do pacote.

Adicionar arquivos de código-fonte

Para adicionar novos blocos de anotações ou outros arquivos a um pacote na interface do usuário do espaço de trabalho, navegue até a pasta do pacote e, em seguida:

  • Clique em Criar no canto superior direito e escolha um dos seguintes tipos de arquivo para adicionar ao seu pacote: Bloco de Anotações, Arquivo, Consulta, Painel.
  • Como alternativa, clique no kebab à esquerda de Compartilhar e importe um arquivo.

Observação

Para que o arquivo faça parte da implantação do pacote, depois de adicionar um arquivo à pasta do pacote, você deve adicioná-lo à configuração do databricks.yml pacote ou criar um arquivo de definição de trabalho ou pipeline que o inclua. Consulte Adicionar um recurso existente a um pacote.

Adicionar uma definição de trabalho

Os pacotes contêm definições para recursos como trabalhos e pipelines a incluir numa implementação. Essas definições são especificadas em YAML ou Python e você pode criar e editar essas configurações diretamente na interface do usuário.

Para criar um arquivo de configuração de pacote que define um trabalho:

  1. Navegue até a pasta bundle no espaço de trabalho onde você deseja definir um novo trabalho.

    Sugestão

    Se você tiver aberto anteriormente o pacote no editor no espaço de trabalho, poderá usar a lista de contextos de criação do navegador de espaço de trabalho para navegar até a pasta do pacote. Consulte Contextos de criação.

  2. À direita do nome do pacote, clique em Abrir no editor para navegar até a visualização do editor do pacote.

  3. Clique no ícone de implantação do pacote para alternar para o painel Implantações .

    Ícone do painel Implementações

  4. Na seção Recursos do pacote , clique em Adicionar e, em seguida, em Nova definição de trabalho.

    Criar definição de trabalho

  5. Digite um nome para o trabalho no campo Nome do trabalho da caixa de diálogo Criar definição de trabalho . Clique em Criar.

  6. Adicione YAML ao arquivo de definição de tarefa que foi criado. O seguinte exemplo YAML define um trabalho que executa um bloco de anotações:

    resources:
      jobs:
        run_notebook:
          name: run-notebook
          queue:
            enabled: true
          tasks:
            - task_key: my-notebook-task
              notebook_task:
                notebook_path: ../helloworld.ipynb
    

Para obter detalhes sobre como definir um trabalho no YAML, consulte trabalho. Para obter a sintaxe YAML para outros tipos de tarefas de trabalho suportados, consulte Adicionar tarefas a trabalhos em Databricks Asset Bundles.

Adicionar um pipeline

Para adicionar um pipeline ao seu pacote:

  1. Navegue até a pasta bundle no espaço de trabalho onde você deseja definir um novo pipeline.

    Sugestão

    Se você tiver aberto anteriormente o pacote no editor no espaço de trabalho, poderá usar o menu de contextos de criação do navegador de espaço de trabalho para navegar até a pasta do pacote. Consulte Contextos de criação.

  2. À direita do nome do pacote, clique em Abrir no editor para navegar até a visualização do editor do pacote.

  3. Clique no ícone de implantação do pacote para alternar para o painel Implantações .

    Ícone do painel Implementações

  4. Na seção Recursos do pacote, clique em Adicionar e, em seguida, clique em Nova definição de pipeline ou Novo pipeline de ETL se tiveres o Lakeflow Pipelines Editor ativado no teu espaço de trabalho. A experiência de criação de pipeline difere para essas duas opções.

Criar definição de pipeline

Se você selecionou Nova definição de pipeline no menu de criação de recursos do pacote:

  1. Digite um nome para o pipeline no campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente .
  2. Clique em Adicionar e implantar.

Para um pipeline com o nome test_pipeline que executa um bloco de anotações, o seguinte YAML é criado em um arquivo test_pipeline.pipeline.yml:

resources:
  pipelines:
    test_pipeline:
      name: test_pipeline
      libraries:
        - notebook:
            path: ../test_pipeline.ipynb
      serverless: true
      catalog: main
      target: test_pipeline_${bundle.environment}

Você pode modificar a configuração para executar um bloco de anotações existente. Para obter detalhes sobre como definir um pipeline no YAML, consulte pipeline.

Criar pipeline ETL

Se você selecionou Novo pipeline de ETL no menu de criação de recursos do pacote:

  1. Digite um nome para o pipeline no campo Nome da caixa de diálogo Adicionar pipeline ao pacote existente . O nome deve ser exclusivo dentro do espaço de trabalho.

  2. Para o campo Usar esquema pessoal , selecione Sim para cenários de desenvolvimento e Não para cenários de produção.

  3. Selecione um catálogo padrão e um esquema padrão para o pipeline.

  4. Escolha um idioma para o código-fonte do pipeline.

  5. Clique em Adicionar e implantar.

    Criar uma caixa de diálogo de pipeline ETL

  6. Reveja os detalhes na caixa de diálogo de confirmação do Deploy para Dev, depois clique em Deploy.

Um pipeline ETL é criado com exemplos de tabelas de exploração e transformação.

Pipeline de ETL em um pacote no espaço de trabalho

Para um pipeline com o nome rad_pipeline, o seguinte YAML é criado em um arquivo rad_pipeline.pipeline.yml. Esse pipeline está configurado para ser executado em computação sem servidor.

resources:
  pipelines:
    rad_pipeline:
      name: rad_pipeline
      libraries:
        - glob:
            include: transformations/**
      serverless: true
      catalog: main
      schema: ${workspace.current_user.short_name}
      root_path: .

Adicionar um recurso existente a um pacote

Você pode adicionar recursos existentes, como pipelines, e também ativos, como blocos de anotações e outros arquivos de origem, ao seu pacote. No entanto, você deve defini-los na configuração do pacote para incluí-los na implantação do pacote. O seguinte exemplo adiciona um pipeline existente a um bundle.

Supondo que tenhas um pipeline chamado taxifilter que executa o taxifilter.ipynb notebook no teu espaço de trabalho partilhado.

  1. Na barra lateral do espaço de trabalho do Azure Databricks, clique em Trabalhos & Pipelines.

  2. Opcionalmente, selecione os filtros Pipelines e Owned by me .

  3. Selecione o pipeline existente taxifilter .

  4. Na página de pipeline, clique no kebab à esquerda do botão Modo de implantação de desenvolvimento . Em seguida, clique em Exibir configurações YAML.

  5. Clique no ícone de cópia para copiar a configuração do pacote para o pipeline.

  6. Navegue até ao seu pacote no Espaço de trabalho.

  7. Clique no ícone de implantação do pacote para alternar para o painel Implantações .

  8. Na seção Recursos do pacote, clique em Adicionar e, em seguida, Nova definição de pipeline.

    Observação

    Se, em vez disso, você vir um novo item de menu de pipeline ETL , então você tem o Lakeflow Pipelines Editor ativado. Para adicionar um pipeline ETL a um pacote, consulte Criar um pipeline controlado pelo código-fonte.

  9. Digite taxifilter no campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente . Clique em Criar.

  10. Cole a configuração do pipeline existente no arquivo. Este exemplo de pipeline é definido para executar o taxifilter notebook:

    resources:
      pipelines:
        taxifilter:
          name: taxifilter
          catalog: main
          libraries:
            - notebook:
                path: /Workspace/Shared/taxifilter.ipynb
          target: taxifilter_${bundle.environment}
    

Agora você pode implantar o pacote e, em seguida, executar o recurso de pipeline por meio da interface do usuário.