Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
As pastas Git do Databricks podem ser usadas em seus fluxos de CI/CD. Ao configurar pastas Git do Databricks no workspace, você pode usar o controle do código-fonte para trabalhar em repositórios Git e integrá-las aos fluxos de trabalho de engenharia de dados. Para obter uma visão geral mais abrangente de CI/CD com o Azure Databricks, consulte CI/CD no Azure Databricks.
Fluxos de uso
A maior parte do trabalho no desenvolvimento de automação para pastas Git está na configuração inicial para suas pastas e no entendimento da API REST do Azure Databricks Repos que você usa para automatizar as operações do Git de trabalhos do Azure Databricks. Antes de começar a criar sua automação e configurar pastas, examine os repositórios remotos do Git que você incorporará em seus fluxos de automação e selecione os corretos para os diferentes estágios da automação, incluindo desenvolvimento, integração, preparo e produção.
- Fluxo de administrador: para fluxos de produção, um administrador de workspace do Azure Databricks configura pastas de nível superior em seu workspace para hospedar as pastas git de produção. O administrador clona um repositório Git e um branch ao criá-los e pode fornecer a essas pastas nomes significativos, como "Produção", "Teste" ou "Preparo", que correspondem à finalidade dos repositórios Git remotos em seus fluxos de desenvolvimento. Para obter mais detalhes, consulte a pasta Git de Produção.
- Fluxo de usuário: um usuário pode criar uma pasta Git em com base em um repositório Git remoto. Um usuário cria uma ramificação específica do usuário local para trabalhar nele e fará o push para o repositório remoto. Para obter informações sobre como colaborar em pastas Git específicas do usuário, consulte Colaborar usando pastas Git.
- Fluxo de mesclagem: os usuários podem criar solicitações de pull (PRs) após fazer push de uma pasta Git. Quando a PR é mesclada, a automação pode efetuar pull das alterações nas pastas Git de produção usando a API Repos do Azure Databricks.
Colaborar usando pastas Git
Você pode colaborar facilmente com outras pessoas usando pastas Git, puxando atualizações e enviando por push alterações diretamente da interface do usuário do Azure Databricks. Por exemplo, use uma ramificação de recurso ou de desenvolvimento para agregar alterações feitas em várias ramificações.
O fluxo a seguir descreve como colaborar usando um branch de funcionalidades:
- Clone seu repositório do Git existente para o workspace do Databricks.
- Use a interface do usuário das pastas Git para criar uma ramificação de recurso a partir da ramificação principal. Você pode criar e usar várias ramificações de funcionalidade para fazer seu trabalho.
- Faça suas modificações nos notebooks do Azure Databricks e em outros arquivos no repositório.
- Confirme e envie suas alterações por push para o repositório Git remoto.
- Os colaboradores já podem clonar o repositório Git em uma pasta de usuário própria.
- Trabalhando em uma nova ramificação, um colega de trabalho faz alterações nos notebooks e em outros arquivos na pasta Git.
- O colaborador confirma e envia suas alterações por push para o repositório Git remoto.
- Quando você ou outros colaboradores estiverem prontos para mesclar seu código, crie uma PR no site do provedor Git. Revise seu código com sua equipe antes de mesclar as alterações na ramificação de implantação.
Observação
O Databricks recomenda que cada desenvolvedor trabalhe em seu próprio ramo. Para saber mais sobre como resolver conflitos de mesclagem, confira Resolver conflitos de mesclagem.
Escolher uma abordagem de CI/CD
O Databricks recomenda o uso de Pacotes de Ativos do Databricks para empacotar e implantar seus fluxos de trabalho de CI/CD. Se preferir implantar apenas o código controlado pelo código-fonte no workspace, você poderá configurar uma pasta git de produção. Para obter uma visão geral mais abrangente de CI/CD com o Azure Databricks, consulte CI/CD no Azure Databricks.
Dica
Defina recursos como trabalhos e pipelines em arquivos de origem usando pacotes e, em seguida, crie, implante e gerencie pacotes em pastas Git do workspace. Consulte Colaborar em pacotes no workspace.
Pasta Git de produção
As pastas git de produção servem a uma finalidade diferente das pastas Git no nível do usuário localizadas em sua pasta de usuário./Workspace/Users/ As pastas Git no nível do usuário atuam como check-outs locais, em que os usuários desenvolvem e enviam alterações de código. Por outro lado, as pastas Git de produção são criadas por administradores do Databricks fora das pastas de usuário e contêm ramificações de implantação de produção. As pastas Git de produção contêm a origem de fluxos de trabalho automatizados e só devem ser atualizadas de forma programática quando as solicitações pull (PRs) são mescladas nas ramificações de implantação. Para pastas Git de produção, limite o acesso do usuário a apenas execução e permita que somente administradores e entidades de serviço do Azure Databricks editem.
Para criar uma pasta de produção do Git:
Escolha um repositório Git e um branch para implantação.
Obtenha uma entidade de serviço e configure uma credencial Git para que a entidade de serviço possa acessar este repositório Git.
Crie uma pasta Git no Azure Databricks para o repositório Git e a ramificação em uma subpasta localizada em
Workspace, dedicada a um projeto, equipe e estágio de desenvolvimento.Selecione Compartilhar depois de selecionar a pasta ou Compartilhar (Permissões) clicando com o botão direito do mouse na pasta na árvore do Workspace . Configure a pasta Git com as seguintes permissões:
- Definir pode ser executado para qualquer usuário do projeto
- Defina Pode executar para qualquer conta de entidade de serviço do Azure Databricks que executará a automação para isso.
- Se apropriado para seu projeto, defina Pode Exibir para todos os usuários no espaço de trabalho para incentivar a descoberta e o compartilhamento.
Selecione Adicionar.
Configure atualizações automatizadas para pastas Git do Databricks. Você pode usar a automação para manter uma pasta git de produção em sincronia com o branch remoto fazendo um dos seguintes procedimentos:
- Use ferramentas externas de CI/CD, como o GitHub Actions, para efetuar pull das confirmações mais recentes em uma pasta Git de produção quando uma solicitação pull se mesclar na ramificação de implantação. Para obter um exemplo do Github Actions, consulte Executar um fluxo de trabalho de CI/CD que atualiza uma pasta git de produção.
- Se você não puder acessar ferramentas externas de CI/CD, crie um trabalho agendado para atualizar uma pasta Git em seu espaço de trabalho com a ramificação remota. Agende um bloco de anotações simples com o seguinte código para ser executado periodicamente:
from databricks.sdk import WorkspaceClient w = WorkspaceClient() w.repos.update(w.workspace.get_status(path=”<git-folder-workspace-full-path>”).object_id, branch=”<branch-name>”)
Para obter mais informações sobre automação com a API do Azure Databricks Repos, consulte a documentação da API REST do Databricks para Repos.