Partager via


Configurer les dossiers Git Databricks

Cette page vous montre comment configurer les dossiers Git Databricks pour le contrôle de version. Une fois l’installation terminée, effectuez des opérations Git courantes telles que clone, checkout, commit, push, pull et gestion des branches directement depuis l’interface utilisateur Databricks. Vous pouvez également afficher les différences pour vos modifications au fur et à mesure que vous développez votre code.

Importante

Utilisez des dossiers Git pour le développement interactif. Pour les déploiements CI/CD et de production, utilisez Databricks Asset Bundles avec des artefacts versionnés et la fédération d'identités de charge de travail. Consultez CI/CD avec des dossiers Git Databricks et Qu’est-ce que les Regroupements d'Actifs Databricks ?.

Prerequisites

Avant de commencer, confirmez les éléments suivants :

  • Les dossiers Git sont activés dans votre espace de travail (activé par défaut). Consultez Activer ou désactiver les dossiers Git Databricks.

  • Vous disposez d’un compte de fournisseur Git (GitHub, GitLab, Azure DevOps, Bitbucket ou AWS CodeCommit).

  • Pour les dépôts privés ou les opérations d’écriture, vous disposez d’un jeton d’accès personnel (PAT) ou d’informations d’identification OAuth à partir de votre fournisseur Git. Consultez Configurer des informations d’identification Git et connecter un dépôt distant à Azure Databricks.

    Remarque

    Vous pouvez cloner des référentiels distants publics sans informations d’identification Git. Pour modifier un référentiel distant public ou utiliser des référentiels privés, configurez les informations d’identification Git avec des autorisations d’écriture .

Ajouter des informations d’identification Git

Pour configurer les informations d’identification Git dans Databricks :

  1. Cliquez sur votre nom d’utilisateur dans la barre supérieure de l’espace de travail Azure Databricks, puis sélectionnez Paramètres.
  2. Cliquez sur Comptes liés.
  3. Cliquez sur Ajouter des informations d’identification Git.
  4. Sélectionnez votre fournisseur Git dans le menu déroulant. Certains fournisseurs offrent une liaison de compte OAuth, tandis que d’autres nécessitent un jeton d’accès personnel (PAT). Si vous liez votre compte à l’aide d’OAuth, terminez le flux d’authentification et passez à la dernière étape.
  5. Entrez votre e-mail dans le champ e-mail du fournisseur Git .
  6. Collez votre PAT dans le champ Jeton . Pour obtenir des instructions sur la création d’un jeton d'accès personnel, consultez Configurer les informations d’identification Git et connecter un référentiel distant à Azure Databricks. Si votre organisation bénéficie d’une authentification unique SAML activée dans GitHub, autorisez votre jeton d’accès personnel pour l’authentification unique.
  7. Cliquez sur Enregistrer.

Vous pouvez également gérer les informations d’identification Git à l’aide de l’API Databricks Repos.

Azure DevOps

Par défaut, l’intégration Git utilise votre jeton d’ID Microsoft Entra si vous n’entrez pas de jeton ou de mot de passe d’application. Si vous fournissez un jeton d’accès personnel Azure DevOps, l’intégration Git utilise cela à la place. Consultez Se connecter à un dépôt Azure DevOps à l’aide d’un jeton.

Après avoir mis à jour votre mot de passe Azure, ré-authentifiez-vous auprès de Databricks. Sinon, la validation de la connexion Azure DevOps peut prendre jusqu’à 24 heures.

Si vous ne pouvez pas cloner un référentiel à l’aide d’Azure DevOps avec l’authentification d’ID Microsoft Entra, consultez Problème lié à une stratégie d’accès conditionnel (CAP) pour l’ID Microsoft Entra.

Plusieurs informations d’identification Git par utilisateur

Importante

Cette fonctionnalité est disponible en préversion publique.

Databricks permet à chaque utilisateur de stocker plusieurs informations d’identification Git. Vous pouvez donc utiliser différents fournisseurs ou comptes sans avoir à changer d’informations d’identification.

Plateforme Databricks Data Intelligence

Sélectionner des informations d’identification pour les dossiers Git

Chaque dossier Git peut utiliser des informations d’identification spécifiques pour les opérations Git. Pour modifier les informations d’identification d’un dossier Git :

  1. Ouvrez le dossier Git et accédez à l’onglet Paramètres Git .
  2. Sous Informations d’identification Git, sélectionnez des informations d’identification dans le menu déroulant.
  3. Cliquez sur Enregistrer.

sélectionner des informations d’identification

Fonctionnement des informations d’identification par défaut

Chaque fournisseur Git prend en charge une information d’identification Git par défaut par utilisateur. Databricks utilise automatiquement ces informations d’identification par défaut pour :

La première information d’identification que vous créez pour un fournisseur devient automatiquement la valeur par défaut. Pour modifier vos informations d’identification par défaut :

  1. Accédez aux Paramètres utilisateur>Comptes liés.
  2. Cliquez sur l’icône de menu kebab Kebab. En regard des informations d’identification que vous souhaitez effectuer par défaut.
  3. Sélectionnez Définir par défaut.

Limites

  • Les emplois qui nécessitent des informations d’identification Git non par défaut pour un fournisseur doivent utiliser un service principal.
  • Les principaux de service ne peuvent avoir qu’une seule information d’identification Git.
  • L’application GitHub Databricks n’autorise qu’une seule information d’identification liée.
  • Chaque utilisateur peut avoir au maximum 10 informations d’identification Git.

Configurer l’identité de validation Git

Votre identité de validation Git détermine la façon dont les validations effectuées à partir de Databricks apparaissent dans votre fournisseur Git. Lorsque vous effectuez une validation via des dossiers Git Databricks, votre fournisseur Git doit vous identifier en tant qu’auteur. Configurez votre adresse e-mail pour que :

  • Les validations s’affichent dans votre profil de fournisseur Git
  • Votre image de profil et votre nom s’affichent correctement
  • Vous recevez un crédit approprié pour les contributions
  • Les membres de l’équipe peuvent suivre qui a apporté chaque modification

Fonctionnement de l'identité d'engagement

Lorsque vous configurez les informations d’identification Git avec une adresse e-mail :

  • Messagerie électronique: Devient l’e-mail de l’auteur (GIT_AUTHOR_EMAIL et GIT_COMMITTER_EMAIL) pour toutes les validations
  • Nom d’utilisateur: Devient le nom du commiteur (GIT_AUTHOR_NAME et GIT_COMMITTER_NAME)

Si vous ne spécifiez pas d’adresse e-mail, Databricks utilise votre nom d’utilisateur Git comme e-mail. Cela peut empêcher une attribution correcte de commit dans votre service Git.

Exemple de validation dans l’historique Git :

commit 480ee5b0214e4d46db2da401a83794c5f5c5d375 (HEAD -> main)
Author: GitHub-username <your.email@example.com>
Date:   Fri Sep 26 00:38:23 2025 -0700

    My commit message

Exemple dans le fournisseur Git :

Validation Git montrant l’identité de l’auteur avec nom d’utilisateur et e-mail

Remarque

Si vous avez créé des informations d’identification Git avant que la configuration de l’e-mail soit disponible, votre champ de messagerie est défini par défaut sur votre nom d’utilisateur. Mettez à jour avec votre adresse e-mail réelle pour une attribution d'engagement appropriée.

Identifiants GitHub liés

Si vous utilisez des informations d’identification Git liées via l’application GitHub Databricks, Databricks configure automatiquement votre adresse e-mail et votre identité Git. Si votre identité n’est pas correctement définie, approuvez les autorisations requises ou reconnectez votre compte GitHub pour obtenir les autorisations appropriées.

Configurer la connectivité réseau

Les dossiers Git nécessitent une connectivité réseau à votre fournisseur Git. La plupart des configurations fonctionnent sur Internet sans configuration supplémentaire. Toutefois, vous aurez peut-être besoin d’une configuration supplémentaire si vous avez :

  • Listes d’autorisation IP sur votre fournisseur Git
  • Serveurs Git auto-hébergés (GitHub Enterprise, Bitbucket Server, GitLab auto-géré)
  • Hébergement de réseau privé

Configurer des listes d’autorisation IP

Si votre serveur Git est accessible sur Internet, mais utilise une liste d’autorisation IP, telle que les listes d’autorisation GitHub :

  1. Recherchez l'adresse IP NAT de votre plan de contrôle Databricks pour votre région dans les régions Azure Databricks.
  2. Ajoutez cette adresse IP à la liste d’autorisation IP de votre serveur Git.

Configurer des serveurs Git privés

Si vous hébergez un serveur Git privé, consultez Configurer une connectivité Git privée pour les dossiers Git Azure Databricks ou contactez votre équipe de compte Databricks pour obtenir des instructions d’installation.

Fonctionnalités de sécurité

Les dossiers Git Databricks incluent les fonctionnalités de sécurité suivantes pour protéger votre code et vos informations d’identification :

Chiffrer les informations d’identification Git

Utilisez Azure Key Vault pour chiffrer les jetons d’accès personnels Git et d’autres informations d’identification Git avec vos propres clés de chiffrement (clés gérées par le client).

Pour plus d’informations, consultez clés gérées par le client pour le chiffrement.

Listes d’autorisation d’URL Git

Les administrateurs d’espace de travail peuvent restreindre les référentiels distants auxquels les utilisateurs peuvent accéder. Cela permet d’empêcher l’exfiltration du code et d’appliquer l’utilisation de référentiels approuvés.

Si vous utilisez l’authentification d’ID Microsoft Entra avec Azure DevOps, la liste d’autorisation par défaut limite les URL Git à :

  • dev.azure.com
  • visualstudio.com

Pour les alias d’URL CNAME ou Git personnalisés, configurez une liste d'autorisation personnalisée et ajoutez explicitement ces URL si vous souhaitez les utiliser.

Configurer une liste verte d’URL Git

Pour configurer une liste d'autorisation :

  1. Cliquez sur votre nom d’utilisateur dans la barre supérieure de l’espace de travail Azure Databricks, puis sélectionnez Paramètres.

  2. Cliquez sur Développement.

  3. Sélectionnez une option d'autorisation de liste d'URL Git :

    • Désactivé (aucune restriction) : Aucune mise en œuvre de liste blanche.
    • Restreindre le clonage, la validation (commit) et l’envoi (push) aux référentiels Git autorisés : Limite toutes les opérations aux URL de liste blanche.
    • Limitez uniquement la validation et l’envoi (push) aux référentiels Git autorisés : Limite uniquement les opérations d’écriture. Cloner et extraire restent sans restrictions.
  4. Cliquez sur l’icône Modifier l’icône Modifier en regard de la liste autorisée URL Git : Aucune entrée.

  5. Entrez une liste séparée par des virgules de préfixes d’URL. Veillez à ne pas entrer d’URL avec des noms d’utilisateur ou des jetons d’authentification comme 1) qu’elles peuvent être répliquées globalement et 2) cela peut empêcher vos utilisateurs d’utiliser des dossiers Git.

  6. Cliquez sur Enregistrer.

L’enregistrement d’une nouvelle liste remplace la liste verte existante. Les modifications peuvent prendre jusqu’à 15 minutes.

Contrôle d’accès

Remarque

Seul le plan Premium inclut le contrôle d’accès.

Contrôler qui peut accéder aux dossiers Git dans votre espace de travail en définissant des autorisations. Les autorisations s’appliquent à tout le contenu d’un dossier Git. Attribuez l’un des niveaux d’autorisation suivants :

  • NO PERMISSIONS: Aucun accès au dossier Git
  • CAN READ: afficher uniquement les fichiers
  • CAN RUN: afficher et exécuter des fichiers
  • CAN EDIT: afficher, exécuter et modifier des fichiers
  • CAN MANAGE: Contrôle total, y compris le partage et la suppression

Pour plus d’informations sur les autorisations de dossier Git, consultez les listes de contrôle d’accès des dossiers Git.

Journalisation d’audit

Lorsque vous activez la journalisation d’audit, Databricks journalise toutes les opérations de dossiers Git, notamment :

  • Création, mise à jour ou suppression de dossiers Git
  • Liste des dossiers Git dans un espace de travail
  • Synchronisation des modifications entre les dossiers Git et les référentiels distants

Détection des secrets

Les répertoires Git analysent automatiquement le code pour les informations d'identification révélées avant les validations. Il vous avertit s’il détecte :

  • ID de clé d’accès AWS commençant par AKIA
  • Autres modèles d’informations d’identification sensibles

Étapes suivantes

Après avoir configuré des dossiers Git, explorez ces rubriques connexes :