Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta página descreve como usar entidades de serviço para CI/CD com o Azure Databricks. Uma principal de serviço é uma identidade criada para uso com ferramentas e aplicações automatizadas, incluindo:
- Plataformas de CI/CD, como GitHub Actions, Azure Pipelines e GitLab CI/CD
- Fluxo de ar em dutos de dados
- Jenkins •
Como prática recomendada de segurança, o Databricks recomenda usar um principal de serviço e o seu respetivo token em vez de utilizar o seu utilizador do Azure Databricks ou o seu token de acesso pessoal do Azure Databricks, para dar acesso aos recursos do Azure Databricks às plataformas de CI/CD. Alguns benefícios dessa abordagem incluem o seguinte:
- Você pode conceder e restringir o acesso aos recursos do Azure Databricks para uma entidade de serviço independentemente de um usuário. Por exemplo, isso permite que você proíba uma entidade de serviço de atuar como administrador em seu espaço de trabalho do Azure Databricks e, ao mesmo tempo, permitir que outros usuários específicos em seu espaço de trabalho continuem a atuar como administradores.
- Os usuários podem proteger seus tokens de acesso de serem acessados por plataformas de CI/CD.
- Você pode desativar temporariamente ou excluir permanentemente uma entidade de serviço sem afetar outros usuários. Por exemplo, isto permite-lhe pausar ou remover o acesso de um principal de serviço que suspeita estar a ser utilizado de modo malicioso.
- Se um usuário sair da sua organização, você poderá removê-lo sem afetar nenhuma entidade de serviço.
Para dar a uma plataforma de CI/CD acesso ao seu espaço de trabalho do Azure Databricks, faça o seguinte:
Escolha um dos seguintes mecanismos de autenticação do MS Entra suportados com uma conexão de serviço:
Federação de identidades de carga de trabalho do Microsoft Entra, usando a CLI do Azure como mecanismo de autenticação.
- Um principal de serviço Microsoft Entra, usando um segredo de cliente Microsoft Entra como mecanismo de autenticação.
- Uma identidade gerida por Microsoft Entra ID.
Para obter detalhes sobre como implementar a autenticação com o Microsoft Entra, consulte Autenticar com o Azure DevOps no Azure Databricks.
Para saber como autenticar de forma específica o acesso às pastas Git do Azure Databricks usando o Azure DevOps, consulte Autorizar um principal de serviço do Microsoft Entra a aceder a pastas Git.
- Um principal de serviço Microsoft Entra, usando um segredo de cliente Microsoft Entra como mecanismo de autenticação.
Requerimentos
- O token OAuth do Azure Databricks ou o token de ID do Microsoft Entra para um principal de serviço gerido do Azure Databricks ou um principal de serviço gerido do Microsoft Entra ID. Para criar uma entidade de serviço gerido do Azure Databricks ou uma entidade de serviço gerido do Microsoft Entra ID e o respetivo token OAuth do Azure Databricks ou token do Microsoft Entra ID, consulte Entidades de serviço.
- Uma conta com o seu provedor Git.
Configurar ações do GitHub
As Ações do GitHub devem ser capazes de acessar seu espaço de trabalho do Azure Databricks. Se você quiser usar pastas Git do Azure Databricks, seu espaço de trabalho também deve ser capaz de acessar o GitHub.
Para habilitar as Ações do GitHub para acessar seu espaço de trabalho do Azure Databricks, você deve fornecer informações sobre sua entidade de serviço gerenciado do Azure Databricks ou a entidade de serviço gerenciado do Microsoft Entra ID para as Ações do GitHub. Isso pode incluir informações como a ID da Aplicação (cliente), a ID do Diretório (locatário) de uma entidade de serviço gerido do Microsoft Entra ID, o segredo de cliente da entidade de serviço gerido do Azure Databricks ou da entidade de serviço gerido do Microsoft Entra ID, ou o valor access_token de uma entidade de serviço gerido do Azure Databricks, dependendo dos requisitos da Ação do GitHub. Para obter mais informações, consulte Entidades de serviço e a documentação das Ações do GitHub.
Se você também quiser habilitar seu espaço de trabalho do Azure Databricks para acessar o GitHub ao usar pastas Git do Azure Databricks, deverá adicionar o token de acesso pessoal do GitHub para um usuário de máquina do GitHub ao seu espaço de trabalho.
Forneça informações sobre a sua entidade de serviço para GitHub Actions
Esta seção descreve como habilitar as Ações do GitHub para acessar seu espaço de trabalho do Azure Databricks.
Como prática recomendada de segurança, o Databricks recomenda que você não insira informações sobre sua entidade de serviço diretamente no corpo de um arquivo de ações do GitHub. Você deve fornecer essas informações às Ações do GitHub usando segredos criptografados do GitHub.
As Ações do GitHub, como as que o Databricks lista nas Ações do GitHub, dependem de vários segredos criptografados do GitHub, como:
-
DATABRICKS_HOST, que é o valorhttps://seguido pelo nome da instância do espaço de trabalho, por exemploadb-1234567890123456.7.azuredatabricks.net. -
AZURE_CREDENTIALS, que é um documento JSON que representa a saída da execução da CLI do Azure para obter informações sobre um principal de serviço gerido do Microsoft Entra ID. Para obter mais informações, consulte a documentação do GitHub Action. -
AZURE_SP_APPLICATION_ID, que é o valor do Identificador do Aplicativo cliente para uma entidade de serviço gerida do Microsoft Entra ID. -
AZURE_SP_TENANT_ID, que é o valor da ID de Diretório (locatário) de uma entidade de serviço gerida do Microsoft Entra ID. -
AZURE_SP_CLIENT_SECRET, que é o Valor do segredo do cliente para um principal de serviço gerido do Microsoft Entra ID.
Para obter mais informações sobre quais segredos criptografados do GitHub são necessários para uma Ação do GitHub, consulte Entidades de serviço e a documentação dessa Ação do GitHub.
Para adicionar esses segredos criptografados do GitHub ao seu repositório do GitHub, consulte Criando segredos criptografados para um repositório na documentação do GitHub. Para outras abordagens para adicionar esses segredos do repositório GitHub, consulte Segredos criptografados na documentação do GitHub.
Adicionar o token de acesso pessoal do GitHub para um usuário de máquina do GitHub ao seu espaço de trabalho do Azure Databricks
Esta seção descreve como habilitar seu espaço de trabalho do Azure Databricks para acessar o GitHub com pastas Git do Azure Databricks. Esta é uma tarefa opcional em cenários de CI/CD.
Como prática recomendada de segurança, o Databricks recomenda que você use usuários de máquina do GitHub em vez de contas pessoais do GitHub, por muitos dos mesmos motivos pelos quais você deve usar uma entidade de serviço em vez de um usuário do Azure Databricks. Para adicionar o token de acesso pessoal do GitHub para um usuário de máquina do GitHub ao seu espaço de trabalho do Azure Databricks, faça o seguinte:
Crie um usuário de máquina GitHub, se você ainda não tiver um disponível. Um usuário de máquina do GitHub é uma conta pessoal do GitHub, separada da sua própria conta pessoal do GitHub, que você pode usar para automatizar a atividade no GitHub. Crie uma nova conta separada do GitHub para usar como um usuário da máquina GitHub, se você ainda não tiver uma disponível.
Observação
Quando você cria uma nova conta separada do GitHub como um usuário da máquina GitHub, não pode associá-la ao endereço de e-mail da sua própria conta pessoal do GitHub. Em vez disso, consulte o administrador de e-mail da sua organização sobre como obter um endereço de e-mail separado que você pode associar a essa nova conta separada do GitHub como um usuário de máquina do GitHub.
Consulte o administrador de conta da sua organização sobre como gerenciar o endereço de e-mail separado e o usuário da máquina GitHub associado e seus tokens de acesso pessoal do GitHub dentro da sua organização.
Dê ao usuário da máquina GitHub acesso ao seu repositório GitHub. Consulte Convidar uma equipe ou pessoa na documentação do GitHub. Para aceitar o convite, você pode primeiro precisar sair da sua conta pessoal do GitHub e, em seguida, entrar novamente como o usuário da máquina do GitHub.
Entre no GitHub como o usuário da máquina e, em seguida, crie um token de acesso pessoal do GitHub para esse usuário da máquina. Consulte Criar um token de acesso pessoal na documentação do GitHub. Certifique-se de dar ao token de acesso pessoal do GitHub acesso ao repo.
Reúna o token de ID do Microsoft Entra para sua entidade de serviço principal, o nome de utilizador da sua máquina GitHub e veja Usar uma entidade de serviço com pastas do Git Databricks.
Configurar o serviço Azure Pipelines
O Azure Pipelines deve ser capaz de acessar seu espaço de trabalho do Azure Databricks. Caso também deseje utilizar as pastas Git do Azure Databricks, o seu espaço de trabalho deve conseguir aceder ao Azure Pipelines.
Os arquivos de pipeline YAML do Azure Pipelines dependem de variáveis de ambiente para acessar seu espaço de trabalho do Azure Databricks. Essas variáveis de ambiente incluem aquelas como:
-
DATABRICKS_HOST, que é o valorhttps://seguido pelo nome da instância do espaço de trabalho, por exemploadb-1234567890123456.7.azuredatabricks.net. -
DATABRICKS_TOKEN, que é o valor copiado dotoken_valueapós ter criado o token de ID do Microsoft Entra para a entidade de serviço gerido do Microsoft Entra ID.
Para adicionar essas variáveis de ambiente ao seu pipeline do Azure, consulte Usar segredos de valor de chave do Azure em Pipelines do Azure e Definir variáveis secretas na documentação do Azure.
Veja também o seguinte blog da Databricks:
Opcional para cenários de CI/CD: se seu espaço de trabalho usa pastas Git do Azure Databricks e você deseja habilitar seu espaço de trabalho para acessar o Azure Pipelines, reúna:
- O token de ID do Microsoft Entra para o seu principal de serviço
- Seu nome de usuário do Azure Pipelines
Em seguida, consulte Usar um principal de serviço com pastas do Git no Databricks.
Configurar o GitLab CI/CD
O CI/CD do GitLab deve ser capaz de aceder ao seu espaço de trabalho do Azure Databricks. Se também desejar utilizar pastas Git do Azure Databricks, o seu espaço de trabalho deve conseguir aceder ao GitLab CI/CD.
Para acessar seu espaço de trabalho do Azure Databricks, os arquivos CI/CD .gitlab-ci.yml do GitLab, como o que faz parte do Modelo Python Básico no dbx, dependem de variáveis CI/CD personalizadas, como:
-
DATABRICKS_HOST, que é o valorhttps://seguido pelo nome da instância do espaço de trabalho, por exemploadb-1234567890123456.7.azuredatabricks.net. -
DATABRICKS_TOKEN, que é o valor que copiou após ter criado o token de ID do Microsoft Entra para a entidade de serviço.
Para adicionar essas variáveis personalizadas ao seu projeto de CI/CD do GitLab, consulte Adicionar uma variável de CI/CD a um projeto na documentação de CI/CD do GitLab.
Se o seu espaço de trabalho usa pastas Git Databricks, e você deseja habilitar o seu espaço de trabalho para acessar o CI/CD do GitLab, reúna:
- O token de ID do Microsoft Entra para o seu principal de serviço
- Seu nome de usuário do GitLab CI/CD
Em seguida, consulte Usar um principal de serviço com pastas do Git no Databricks.