Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Os Databricks Asset Bundles podem ser criados e modificados diretamente no espaço de trabalho.
Para obter os requisitos para usar pacotes no espaço de trabalho, consulte Databricks Asset Bundles nos requisitos do espaço de trabalho.
Para obter mais informações sobre pacotes, consulte O que são Databricks Asset Bundles?.
Criar um pacote
Para criar um pacote no espaço de trabalho Databricks:
Navegue até a pasta Git onde você deseja criar seu pacote.
Clique no botão Criar e, em seguida, clique em Pacote de ativos. Como alternativa, clique com o botão direito do mouse na pasta Git ou no kebab associado na árvore do espaço de trabalho e clique em Criar>pacote de ativos:
Na caixa de diálogo Criar um pacote de ativos , dê um nome ao pacote de ativos, como totally-awesome-bundle. O nome do pacote só pode conter letras, números, traços e sublinhados.
Em Template, escolha se deseja criar um pacote vazio, um bundle que execute um bloco de anotações Python de exemplo ou um bundle que execute SQL. Se você tiver o Lakeflow Pipelines Editor habilitado, também verá uma opção para criar um projeto de pipeline ETL.
Alguns modelos requerem configuração adicional. Clique em Avançar para concluir a configuração do projeto.
Template Opções de configuração Oleodutos declarativos Lakeflow Spark - Catálogo padrão a ser usado para os dados do pipeline
- Usar esquema pessoal (recomendado) para cada usuário que colabora neste pacote
- Idioma inicial para os arquivos de código no pipeline
Python padrão - Incluir um bloco de notas de exemplo
- Incluir um pipeline de exemplo
- Incluir um pacote Python de exemplo
- Usar computação sem servidor
SQL padrão - Caminho do SQL warehouse
- Catálogo inicial
- Usar esquema pessoal
- Esquema inicial durante o desenvolvimento
Clique em Criar e implantar.
Isso cria um pacote inicial na pasta Git, que inclui os arquivos para o modelo de projeto selecionado, um .gitignore arquivo de configuração do Git e o arquivo Databricks Asset Bundles databricks.yml necessário. O databricks.yml arquivo contém a configuração principal para o pacote. Para obter detalhes, consulte Configuração do Databricks Asset Bundle.
Quaisquer alterações feitas nos arquivos dentro do pacote podem ser sincronizadas com o repositório remoto associado à pasta Git. Uma pasta Git pode conter muitos pacotes.
Adicionar novos arquivos a um pacote
Um pacote contém o ficheiro databricks.yml que define as configurações de implantação e de espaço de trabalho, ficheiros de origem, como notebooks, ficheiros Python e de teste, assim como definições e configurações para recursos do Databricks, tais como os Lakeflow Jobs e as Lakeflow Spark Declarative Pipelines. Semelhante a qualquer pasta de espaço de trabalho, você pode adicionar novos arquivos ao seu pacote.
Sugestão
Para abrir uma nova guia para a visualização do pacote que permite modificar os arquivos do pacote, navegue até a pasta do pacote no espaço de trabalho e clique em Abrir no editor à direita do nome do pacote.
Adicionar arquivos de código-fonte
Para adicionar novos blocos de anotações ou outros arquivos a um pacote na interface do usuário do espaço de trabalho, navegue até a pasta do pacote e, em seguida:
- Clique em Criar no canto superior direito e escolha um dos seguintes tipos de arquivo para adicionar ao seu pacote: Bloco de Anotações, Arquivo, Consulta, Painel.
- Como alternativa, clique no kebab à esquerda de Compartilhar e importe um arquivo.
Observação
Para que o arquivo faça parte da implantação do pacote, depois de adicionar um arquivo à pasta do pacote, você deve adicioná-lo à configuração do databricks.yml pacote ou criar um arquivo de definição de trabalho ou pipeline que o inclua. Consulte Adicionar um recurso existente a um pacote.
Adicionar uma definição de trabalho
Os pacotes contêm definições para recursos como trabalhos e pipelines a incluir numa implementação. Essas definições são especificadas em YAML ou Python e você pode criar e editar essas configurações diretamente na interface do usuário.
Para criar um arquivo de configuração de pacote que define um trabalho:
Navegue até a pasta bundle no espaço de trabalho onde você deseja definir um novo trabalho.
Sugestão
Se você tiver aberto anteriormente o pacote no editor no espaço de trabalho, poderá usar a lista de contextos de criação do navegador de espaço de trabalho para navegar até a pasta do pacote. Consulte Contextos de criação.
À direita do nome do pacote, clique em Abrir no editor para navegar até a visualização do editor do pacote.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do pacote , clique em Adicionar e, em seguida, em Nova definição de trabalho.
Digite um nome para o trabalho no campo Nome do trabalho da caixa de diálogo Criar definição de trabalho . Clique em Criar.
Adicione YAML ao arquivo de definição de tarefa que foi criado. O seguinte exemplo YAML define um trabalho que executa um bloco de anotações:
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
Para obter detalhes sobre como definir um trabalho no YAML, consulte trabalho. Para obter a sintaxe YAML para outros tipos de tarefas de trabalho suportados, consulte Adicionar tarefas a trabalhos em Databricks Asset Bundles.
Adicionar um pipeline
Para adicionar um pipeline ao seu pacote:
Navegue até a pasta bundle no espaço de trabalho onde você deseja definir um novo pipeline.
Sugestão
Se você tiver aberto anteriormente o pacote no editor no espaço de trabalho, poderá usar o menu de contextos de criação do navegador de espaço de trabalho para navegar até a pasta do pacote. Consulte Contextos de criação.
À direita do nome do pacote, clique em Abrir no editor para navegar até a visualização do editor do pacote.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do pacote, clique em Adicionar e, em seguida, clique em Nova definição de pipeline ou Novo pipeline de ETL se tiveres o Lakeflow Pipelines Editor ativado no teu espaço de trabalho. A experiência de criação de pipeline difere para essas duas opções.
Criar definição de pipeline
Se você selecionou Nova definição de pipeline no menu de criação de recursos do pacote:
- Digite um nome para o pipeline no campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente .
- Clique em Adicionar e implantar.
Para um pipeline com o nome test_pipeline que executa um bloco de anotações, o seguinte YAML é criado em um arquivo test_pipeline.pipeline.yml:
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
Você pode modificar a configuração para executar um bloco de anotações existente. Para obter detalhes sobre como definir um pipeline no YAML, consulte pipeline.
Criar pipeline ETL
Se você selecionou Novo pipeline de ETL no menu de criação de recursos do pacote:
Digite um nome para o pipeline no campo Nome da caixa de diálogo Adicionar pipeline ao pacote existente . O nome deve ser exclusivo dentro do espaço de trabalho.
Para o campo Usar esquema pessoal , selecione Sim para cenários de desenvolvimento e Não para cenários de produção.
Selecione um catálogo padrão e um esquema padrão para o pipeline.
Escolha um idioma para o código-fonte do pipeline.
Clique em Adicionar e implantar.
Reveja os detalhes na caixa de diálogo de confirmação do Deploy para Dev, depois clique em Deploy.
Um pipeline ETL é criado com exemplos de tabelas de exploração e transformação.
Para um pipeline com o nome rad_pipeline, o seguinte YAML é criado em um arquivo rad_pipeline.pipeline.yml. Esse pipeline está configurado para ser executado em computação sem servidor.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
Adicionar um recurso existente a um pacote
Você pode adicionar recursos existentes, como pipelines, e também ativos, como blocos de anotações e outros arquivos de origem, ao seu pacote. No entanto, você deve defini-los na configuração do pacote para incluí-los na implantação do pacote. O seguinte exemplo adiciona um pipeline existente a um bundle.
Supondo que tenhas um pipeline chamado taxifilter que executa o taxifilter.ipynb notebook no teu espaço de trabalho partilhado.
Na barra lateral do espaço de trabalho do Azure Databricks, clique em Trabalhos & Pipelines.
Opcionalmente, selecione os filtros Pipelines e Owned by me .
Selecione o pipeline existente
taxifilter.Na página de pipeline, clique no kebab à esquerda do botão Modo de implantação de desenvolvimento . Em seguida, clique em Exibir configurações YAML.
Clique no ícone de cópia para copiar a configuração do pacote para o pipeline.
Navegue até ao seu pacote no Espaço de trabalho.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do pacote, clique em Adicionar e, em seguida, Nova definição de pipeline.
Observação
Se, em vez disso, você vir um novo item de menu de pipeline ETL , então você tem o Lakeflow Pipelines Editor ativado. Para adicionar um pipeline ETL a um pacote, consulte Criar um pipeline controlado pelo código-fonte.
Digite
taxifilterno campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente . Clique em Criar.Cole a configuração do pipeline existente no arquivo. Este exemplo de pipeline é definido para executar o
taxifilternotebook:resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
Agora você pode implantar o pacote e, em seguida, executar o recurso de pipeline por meio da interface do usuário.