Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os Pacotes de Ativos do Databricks podem ser criados e modificados diretamente no workspace.
Para obter requisitos para usar pacotes no workspace, consulte Os Pacotes de Ativos do Databricks nos requisitos do workspace.
Para obter mais informações sobre pacotes, consulte o que são pacotes de ativos do Databricks?.
Criar um pacote
Para criar um pacote no workspace do Databricks:
Navegue até a pasta git em que você deseja criar seu pacote.
Clique no botão Criar e, em seguida, clique no conjunto de ativos. Como alternativa, clique com o botão direito do mouse na pasta Git ou no seu kebab associado na árvore de espaço de trabalho e clique em Criar>pacote de ativos:
Na caixa de diálogo Criar um pacote de ativos , dê um nome ao pacote de ativos, como um pacote totalmente incrível. O nome do pacote só pode conter letras, números, traços e sublinhados.
Para o Modelo, escolha se deseja criar um pacote vazio, um pacote que executa um bloco de anotações python de exemplo ou um pacote que executa o SQL. Se você tiver o Editor do Lakeflow Pipelines habilitado, você também verá uma opção para criar um projeto de pipeline de ETL.
Alguns modelos exigem configuração adicional. Clique em Avançar para concluir a configuração do projeto.
Template Opções de configuração Pipelines Declarativos do Lakeflow Spark - Catálogo padrão a ser usado para os dados do pipeline
- Usar esquema pessoal (recomendado) para cada usuário que colabora neste pacote
- Idioma inicial para os arquivos de código no pipeline
Python padrão - Incluir um bloco de anotações de exemplo
- Incluir um pipeline de exemplo
- Incluir um pacote python de exemplo
- Usar computação sem servidor
SQL padrão - Caminho do sql warehouse
- Catálogo inicial
- Usar esquema pessoal
- Esquema inicial durante o desenvolvimento
Clique em Criar e implantar.
Isso cria um pacote inicial na pasta Git, que inclui os arquivos para o modelo de projeto que você selecionou, um .gitignore arquivo de configuração do Git e o arquivo de Pacotes de Ativos do Databricks necessário.databricks.yml O databricks.yml arquivo contém a configuração principal do pacote. Para obter detalhes, consulte a configuração do Pacote de Ativos do Databricks.
Todas as alterações feitas nos arquivos dentro do pacote podem ser sincronizadas com o repositório remoto associado à pasta Git. Uma pasta Git pode conter muitos pacotes.
Adicionar novos arquivos a um pacote
Um pacote contém o arquivo databricks.yml que define as configurações de implantação e de workspace, arquivos de origem, como notebooks, arquivos Python e arquivos de teste, assim como as definições e configurações para recursos do Databricks, como Lakeflow Jobs e Lakeflow Spark Declarative Pipelines. Semelhante a qualquer pasta de workspace, você pode adicionar novos arquivos ao seu pacote.
Dica
Para abrir uma nova guia para a exibição de pacote que permite modificar arquivos de pacote, navegue até a pasta de pacote no workspace e clique em Abrir no editor à direita do nome do pacote.
Adicionar arquivos de código-fonte
Para adicionar novos notebooks ou outros arquivos a um pacote na interface do usuário do workspace, navegue até a pasta do pacote e, em seguida:
- Clique em Criar no canto superior direito e escolha um dos seguintes tipos de arquivo a serem adicionados ao seu pacote: Notebook, Arquivo, Consulta, Painel.
- Como alternativa, clique no kebab à esquerda do Share e importe um arquivo.
Observação
Para que o arquivo faça parte da implantação do pacote, depois de adicionar um arquivo à pasta do pacote, você deve adicioná-lo à configuração do databricks.yml pacote ou criar um arquivo de definição de pipeline ou trabalho que o inclua. Consulte Adicionar um recurso existente a um pacote.
Adicionar uma definição de trabalho
Os pacotes contêm definições para recursos como tarefas e pipelines a serem incluídos em uma implantação. Essas definições são especificadas em YAML ou Python e você pode criar e editar essas configurações diretamente na interface do usuário.
Para criar um arquivo de configuração de pacote que define um trabalho:
Navegue até a pasta de pacote no workspace onde você deseja definir um novo trabalho.
Dica
Se você já abriu o pacote no editor no workspace, poderá usar a lista de contextos de criação do navegador do workspace para navegar até a pasta do pacote. Consulte contextos de criação.
À direita do nome do pacote, clique em Abrir no editor para navegar até o modo de exibição do editor do pacote.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do Pacote , clique em Adicionar e, em seguida, nova definição de trabalho.
Digite um nome para o trabalho no campo Nome do trabalho da caixa de diálogo Criar definição de trabalho . Clique em Criar.
Adicione YAML ao arquivo de definição de trabalho que foi criado. O yaml de exemplo de folowing define um trabalho que executa um notebook:
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
Para obter detalhes sobre como definir um trabalho no YAML, consulte o trabalho. Para a sintaxe YAML de outros tipos de tarefas suportadas, consulte Adicionar tarefas a trabalhos em Bundles de Recursos do Databricks.
Adicionar um pipeline
Para adicionar um pipeline ao seu pacote:
Navegue até a pasta do pacote no workspace na qual deseja definir um novo pipeline.
Dica
Se você já abriu o pacote no editor no workspace, poderá usar o menu de contextos de criação do navegador do workspace para navegar até a pasta de pacotes. Consulte contextos de criação.
À direita do nome do pacote, clique em Abrir no editor para navegar até o modo de exibição do editor do pacote.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do Pacote, clique em Adicionar e então clique em Nova definição de pipeline ou Novo pipeline ETL se você habilitou o Editor de Pipelines do Lakeflow em seu workspace. A experiência de criação do pipeline é diferente para essas duas opções.
Criar definição de pipeline
Se você selecionou Nova definição de pipeline no menu de criação de recursos do pacote:
- Digite um nome para o pipeline no campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente .
- Clique em Adicionar e implantar.
Para um pipeline com o nome test_pipeline que executa um notebook, o seguinte YAML é criado em um arquivo test_pipeline.pipeline.yml:
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
Você pode modificar a configuração para executar um notebook existente. Para obter detalhes sobre como definir um pipeline no YAML, consulte o pipeline.
Criar pipeline de ETL
Caso você tenha selecionado Novo pipeline ETL no menu de criação de recursos do conjunto:
Digite um nome para o pipeline no campo Nome da caixa de diálogo Adicionar pipeline ao pacote existente . O nome deve ser exclusivo dentro do espaço de trabalho.
Para o campo Usar esquema pessoal , selecione Sim para cenários de desenvolvimento e Não para cenários de produção.
Selecione um catálogo padrão e um esquema padrão para o pipeline.
Escolha um idioma para o código-fonte do pipeline.
Clique em Adicionar e implantar.
Revise os detalhes na caixa de diálogo de confirmação Implantar para dev e clique em Implantar.
Um pipeline de ETL é criado com tabelas exemplares de exploração e transformação.
Para um pipeline com o nome rad_pipeline, o YAML a seguir é criado em um arquivo rad_pipeline.pipeline.yml. Esse pipeline está configurado para ser executado na computação sem servidor.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
Adicionar um recurso existente a um pacote
Você pode adicionar recursos existentes, como pipelines, e também ativos, como notebooks e outros arquivos de origem, ao seu pacote. No entanto, você deve defini-los na configuração do pacote para incluí-los na implantação do pacote. O exemplo a seguir adiciona um pipeline existente a um pacote.
Supondo que você tenha um pipeline chamado taxifilter que execute o notebook taxifilter.ipynb em seu workspace compartilhado.
Na barra lateral do workspace do Azure Databricks, clique em
Jobs & Pipelines .Opcionalmente, selecione os filtros Pipelines e Owned by me .
Selecione o pipeline existente
taxifilter.Na página do pipeline, clique no kebab à esquerda do botão Modo de implantação desenvolvimento . Em seguida, clique em Exibir configurações YAML.
Clique no ícone de cópia para copiar a configuração do pacote para o pipeline.
Navegue até o pacote no Workspace.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do Pacote, clique em Adicionar e, em seguida, Nova definição de pipeline.
Observação
Se, em vez disso, você vir um novo item de menu de pipeline ETL , terá o Editor de Pipelines do Lakeflow habilitado. Para adicionar um pipeline ETL a um pacote, consulte Criar um pipeline controlado pela origem.
Digite
taxifilterno campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente. Clique em Criar.Cole a configuração do pipeline existente no arquivo. Este pipeline de exemplo é definido para executar o
taxifilternotebook:resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
Agora você pode implantar o pacote e, em seguida, executar o recurso de pipeline por meio da interface do usuário.