Compartilhar via


Criar pacotes de autor no espaço de trabalho

Os Pacotes de Ativos do Databricks podem ser criados e modificados diretamente no workspace.

Para obter requisitos para usar pacotes no workspace, consulte Os Pacotes de Ativos do Databricks nos requisitos do workspace.

Para obter mais informações sobre pacotes, consulte o que são pacotes de ativos do Databricks?.

Criar um pacote

Para criar um pacote no workspace do Databricks:

  1. Navegue até a pasta git em que você deseja criar seu pacote.

  2. Clique no botão Criar e, em seguida, clique no conjunto de ativos. Como alternativa, clique com o botão direito do mouse na pasta Git ou no seu kebab associado na árvore de espaço de trabalho e clique em Criar>pacote de ativos:

    Criar um pacote de ativos

  3. Na caixa de diálogo Criar um pacote de ativos , dê um nome ao pacote de ativos, como um pacote totalmente incrível. O nome do pacote só pode conter letras, números, traços e sublinhados.

  4. Para o Modelo, escolha se deseja criar um pacote vazio, um pacote que executa um bloco de anotações python de exemplo ou um pacote que executa o SQL. Se você tiver o Editor do Lakeflow Pipelines habilitado, você também verá uma opção para criar um projeto de pipeline de ETL.

    Caixa de diálogo Criar novo pacote de ativos

  5. Alguns modelos exigem configuração adicional. Clique em Avançar para concluir a configuração do projeto.

    Template Opções de configuração
    Pipelines Declarativos do Lakeflow Spark
    • Catálogo padrão a ser usado para os dados do pipeline
    • Usar esquema pessoal (recomendado) para cada usuário que colabora neste pacote
    • Idioma inicial para os arquivos de código no pipeline
    Python padrão
    • Incluir um bloco de anotações de exemplo
    • Incluir um pipeline de exemplo
    • Incluir um pacote python de exemplo
    • Usar computação sem servidor
    SQL padrão
    • Caminho do sql warehouse
    • Catálogo inicial
    • Usar esquema pessoal
    • Esquema inicial durante o desenvolvimento
  6. Clique em Criar e implantar.

Isso cria um pacote inicial na pasta Git, que inclui os arquivos para o modelo de projeto que você selecionou, um .gitignore arquivo de configuração do Git e o arquivo de Pacotes de Ativos do Databricks necessário.databricks.yml O databricks.yml arquivo contém a configuração principal do pacote. Para obter detalhes, consulte a configuração do Pacote de Ativos do Databricks.

Novo pacote de ativos

Todas as alterações feitas nos arquivos dentro do pacote podem ser sincronizadas com o repositório remoto associado à pasta Git. Uma pasta Git pode conter muitos pacotes.

Adicionar novos arquivos a um pacote

Um pacote contém o arquivo databricks.yml que define as configurações de implantação e de workspace, arquivos de origem, como notebooks, arquivos Python e arquivos de teste, assim como as definições e configurações para recursos do Databricks, como Lakeflow Jobs e Lakeflow Spark Declarative Pipelines. Semelhante a qualquer pasta de workspace, você pode adicionar novos arquivos ao seu pacote.

Dica

Para abrir uma nova guia para a exibição de pacote que permite modificar arquivos de pacote, navegue até a pasta de pacote no workspace e clique em Abrir no editor à direita do nome do pacote.

Adicionar arquivos de código-fonte

Para adicionar novos notebooks ou outros arquivos a um pacote na interface do usuário do workspace, navegue até a pasta do pacote e, em seguida:

  • Clique em Criar no canto superior direito e escolha um dos seguintes tipos de arquivo a serem adicionados ao seu pacote: Notebook, Arquivo, Consulta, Painel.
  • Como alternativa, clique no kebab à esquerda do Share e importe um arquivo.

Observação

Para que o arquivo faça parte da implantação do pacote, depois de adicionar um arquivo à pasta do pacote, você deve adicioná-lo à configuração do databricks.yml pacote ou criar um arquivo de definição de pipeline ou trabalho que o inclua. Consulte Adicionar um recurso existente a um pacote.

Adicionar uma definição de trabalho

Os pacotes contêm definições para recursos como tarefas e pipelines a serem incluídos em uma implantação. Essas definições são especificadas em YAML ou Python e você pode criar e editar essas configurações diretamente na interface do usuário.

Para criar um arquivo de configuração de pacote que define um trabalho:

  1. Navegue até a pasta de pacote no workspace onde você deseja definir um novo trabalho.

    Dica

    Se você já abriu o pacote no editor no workspace, poderá usar a lista de contextos de criação do navegador do workspace para navegar até a pasta do pacote. Consulte contextos de criação.

  2. À direita do nome do pacote, clique em Abrir no editor para navegar até o modo de exibição do editor do pacote.

  3. Clique no ícone de implantação do pacote para alternar para o painel Implantações .

    Ícone do painel implantações

  4. Na seção Recursos do Pacote , clique em Adicionar e, em seguida, nova definição de trabalho.

    Criar definição de trabalho

  5. Digite um nome para o trabalho no campo Nome do trabalho da caixa de diálogo Criar definição de trabalho . Clique em Criar.

  6. Adicione YAML ao arquivo de definição de trabalho que foi criado. O yaml de exemplo de folowing define um trabalho que executa um notebook:

    resources:
      jobs:
        run_notebook:
          name: run-notebook
          queue:
            enabled: true
          tasks:
            - task_key: my-notebook-task
              notebook_task:
                notebook_path: ../helloworld.ipynb
    

Para obter detalhes sobre como definir um trabalho no YAML, consulte o trabalho. Para a sintaxe YAML de outros tipos de tarefas suportadas, consulte Adicionar tarefas a trabalhos em Bundles de Recursos do Databricks.

Adicionar um pipeline

Para adicionar um pipeline ao seu pacote:

  1. Navegue até a pasta do pacote no workspace na qual deseja definir um novo pipeline.

    Dica

    Se você já abriu o pacote no editor no workspace, poderá usar o menu de contextos de criação do navegador do workspace para navegar até a pasta de pacotes. Consulte contextos de criação.

  2. À direita do nome do pacote, clique em Abrir no editor para navegar até o modo de exibição do editor do pacote.

  3. Clique no ícone de implantação do pacote para alternar para o painel Implantações .

    Ícone do painel implantações

  4. Na seção Recursos do Pacote, clique em Adicionar e então clique em Nova definição de pipeline ou Novo pipeline ETL se você habilitou o Editor de Pipelines do Lakeflow em seu workspace. A experiência de criação do pipeline é diferente para essas duas opções.

Criar definição de pipeline

Se você selecionou Nova definição de pipeline no menu de criação de recursos do pacote:

  1. Digite um nome para o pipeline no campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente .
  2. Clique em Adicionar e implantar.

Para um pipeline com o nome test_pipeline que executa um notebook, o seguinte YAML é criado em um arquivo test_pipeline.pipeline.yml:

resources:
  pipelines:
    test_pipeline:
      name: test_pipeline
      libraries:
        - notebook:
            path: ../test_pipeline.ipynb
      serverless: true
      catalog: main
      target: test_pipeline_${bundle.environment}

Você pode modificar a configuração para executar um notebook existente. Para obter detalhes sobre como definir um pipeline no YAML, consulte o pipeline.

Criar pipeline de ETL

Caso você tenha selecionado Novo pipeline ETL no menu de criação de recursos do conjunto:

  1. Digite um nome para o pipeline no campo Nome da caixa de diálogo Adicionar pipeline ao pacote existente . O nome deve ser exclusivo dentro do espaço de trabalho.

  2. Para o campo Usar esquema pessoal , selecione Sim para cenários de desenvolvimento e Não para cenários de produção.

  3. Selecione um catálogo padrão e um esquema padrão para o pipeline.

  4. Escolha um idioma para o código-fonte do pipeline.

  5. Clique em Adicionar e implantar.

    Criar um diálogo para a configuração do pipeline ETL

  6. Revise os detalhes na caixa de diálogo de confirmação Implantar para dev e clique em Implantar.

Um pipeline de ETL é criado com tabelas exemplares de exploração e transformação.

Pipeline de ETL em um pacote no workspace

Para um pipeline com o nome rad_pipeline, o YAML a seguir é criado em um arquivo rad_pipeline.pipeline.yml. Esse pipeline está configurado para ser executado na computação sem servidor.

resources:
  pipelines:
    rad_pipeline:
      name: rad_pipeline
      libraries:
        - glob:
            include: transformations/**
      serverless: true
      catalog: main
      schema: ${workspace.current_user.short_name}
      root_path: .

Adicionar um recurso existente a um pacote

Você pode adicionar recursos existentes, como pipelines, e também ativos, como notebooks e outros arquivos de origem, ao seu pacote. No entanto, você deve defini-los na configuração do pacote para incluí-los na implantação do pacote. O exemplo a seguir adiciona um pipeline existente a um pacote.

Supondo que você tenha um pipeline chamado taxifilter que execute o notebook taxifilter.ipynb em seu workspace compartilhado.

  1. Na barra lateral do workspace do Azure Databricks, clique em Jobs & Pipelines.

  2. Opcionalmente, selecione os filtros Pipelines e Owned by me .

  3. Selecione o pipeline existente taxifilter .

  4. Na página do pipeline, clique no kebab à esquerda do botão Modo de implantação desenvolvimento . Em seguida, clique em Exibir configurações YAML.

  5. Clique no ícone de cópia para copiar a configuração do pacote para o pipeline.

  6. Navegue até o pacote no Workspace.

  7. Clique no ícone de implantação do pacote para alternar para o painel Implantações .

  8. Na seção Recursos do Pacote, clique em Adicionar e, em seguida, Nova definição de pipeline.

    Observação

    Se, em vez disso, você vir um novo item de menu de pipeline ETL , terá o Editor de Pipelines do Lakeflow habilitado. Para adicionar um pipeline ETL a um pacote, consulte Criar um pipeline controlado pela origem.

  9. Digite taxifilter no campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente. Clique em Criar.

  10. Cole a configuração do pipeline existente no arquivo. Este pipeline de exemplo é definido para executar o taxifilter notebook:

    resources:
      pipelines:
        taxifilter:
          name: taxifilter
          catalog: main
          libraries:
            - notebook:
                path: /Workspace/Shared/taxifilter.ipynb
          target: taxifilter_${bundle.environment}
    

Agora você pode implantar o pacote e, em seguida, executar o recurso de pipeline por meio da interface do usuário.