Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Si vous hébergez un serveur Git privé (par exemple, GitHub Enterprise Server, Bitbucket Server ou GitLab auto-géré) ou que votre serveur Git se trouve derrière un pare-feu, vous pouvez utiliser le proxy de serveur Git pour connecter les dossiers Git Databricks à vos dépôts privés. Le proxy achemine les commandes Git de votre espace de travail Azure Databricks via une ressource de calcul vers votre serveur Git privé.
À propos du proxy de serveur Git
Le proxy de serveur Git Databricks pour les dossiers Git vous permet de proxyr des commandes Git de votre espace de travail Azure Databricks vers un serveur Git privé qui n’est pas accessible sur Internet.
Les dossiers Git Databricks représentent vos référentiels Git connectés en tant que dossiers. Le contenu de ces dossiers est géré par un système de gestion de versions en se synchronisant avec le référentiel Git connecté. Par défaut, les dossiers Git peuvent uniquement se synchroniser avec les référentiels accessibles sur Internet. Si vous hébergez un serveur Git privé ou que votre serveur Git se trouve derrière un pare-feu, vous devez utiliser le proxy de serveur Git avec des dossiers Git. Votre serveur Git doit être accessible à partir de votre plan de calcul Azure Databricks.
Fonctionnement du proxy de serveur Git
Le serveur proxy Git pour les dossiers Git Databricks transmet les commandes Git du plan de contrôle Databricks vers un cluster proxy s'exécutant dans le plan de calcul de votre espace de travail. Le cluster proxy est configuré pour exécuter un service proxy qui reçoit des commandes Git à partir du plan de contrôle Databricks et les transfère à votre serveur Git. Le proxy n’affecte pas l’architecture de sécurité de votre plan de contrôle Databricks.
Les éléments suivants illustrent l’architecture système globale :
Important
Databricks fournit un notebook d’activation pour configurer votre instance de serveur Git afin de relayer des commandes pour les dossiers Git de Databricks. Obtenir le notebook d’activation sur GitHub. Le proxy de serveur Git Databricks est conçu pour fonctionner avec la version Databricks Runtime incluse dans le notebook de configuration. Ne mettez pas à jour la version Databricks Runtime du cluster proxy.
Configurer le proxy de serveur Git
Pour activer la connectivité Git privée pour les dossiers Git Databricks, préparez votre instance de serveur Git, exécutez le notebook d’activation pour créer le proxy et validez votre configuration.
Pour configurer le proxy de serveur Git :
- Préparez votre instance de serveur Git avec des adresses IP statiques et un transport HTTPS.
- Exécutez le notebook d’activation pour créer le cluster proxy.
- Validez votre configuration en clonant un référentiel.
- Configurez les informations d’identification Git pour les utilisateurs.
Prerequisites
Avant d’activer le proxy, vérifiez les éléments suivants :
- Votre espace de travail présente la fonctionnalité Dossiers Git Databricks activée. Consultez Activer ou désactiver les dossiers Git Databricks.
- Votre instance de serveur Git est accessible depuis le réseau virtuel Azure (VNet) du plan de calcul de l'espace de travail Azure Databricks, et les accès via HTTPS ainsi que les jetons d'accès personnels (PAT) sont activés.
Remarque
Le proxy de serveur Git pour Databricks fonctionne dans toutes les régions prises en charge par votre réseau virtuel.
Étape 1 : Préparez votre instance de serveur Git
Important
Pour créer une ressource de calcul et effectuer cette tâche, vous devez être administrateur d’espace de travail disposant de droits d’accès.
Configurez votre serveur Git pour accepter les connexions à partir du cluster proxy et activer le transport HTTPS.
Votre serveur Git d’entreprise dispose généralement d’une liste verte d’adresses IP à partir de laquelle l’accès est autorisé. Pour permettre au nœud de pilote du cluster proxy d'accéder à votre serveur Git, associez une adresse IP sortante statique pour le trafic provenant du cluster proxy et ajoutez-la à la liste d'autorisation de votre serveur Git.
- Associez à l'aide du Pare-feu Azure ou d'un appareil de sortie une adresse IP sortante statique pour le trafic provenant de votre cluster proxy.
- Ajoutez l’adresse IP de l’étape précédente à la liste d'autorisation de votre serveur Git.
Ensuite, configurez votre instance de serveur Git pour autoriser le transport HTTPS :
- GitHub Enterprise : voir quelle URL distante dois-je utiliser dans l’aide de GitHub Enterprise.
- Serveur Bitbucket : dans la page d’administration du serveur Bitbucket, cliquez sur Paramètres du serveur et sélectionnez HTTP(S) activé.
Étape 2 : Exécutez le bloc-notes d’activation
Pour activer le proxy :
Connectez-vous à votre espace de travail Azure Databricks en tant qu’administrateur d’espace de travail avec des droits d’accès pour créer un cluster.
Importez ce notebook, qui choisit le plus petit type d’instance disponible auprès de votre fournisseur de cloud pour exécuter le proxy Git :
Cliquez sur Exécuter tout pour exécuter le notebook, qui effectue les tâches suivantes :
- Crée une ressource de calcul à nœud unique nommée « Proxy Git Databricks » qui ne se termine pas automatiquement. Ce service proxy traite et transfère les commandes Git de votre espace de travail Azure Databricks vers votre serveur Git privé.
- Active un indicateur de fonctionnalité qui contrôle si les requêtes Git dans les dossiers Git Databricks sont proxiées via l’instance de calcul.
En guise de bonne pratique, créez un travail pour exécuter la ressource de calcul proxy Git selon une planification régulière. Ainsi, le service proxy Git est disponible pour vos utilisateurs.
Remarque
L’exécution d’une ressource de calcul supplémentaire de longue durée entraîne des unités Databricks (DBU) supplémentaires. Afin de réduire les coûts, le notebook configure le proxy pour qu’il utilise une ressource de calcul à nœud unique avec un type de nœud peu coûteux. Modifiez les options de calcul en fonction de vos besoins. Pour plus d’informations sur la tarification, consultez la calculatrice de prix Databricks.
Étape 3 : Validez la configuration de votre serveur Git
Pour valider la configuration de votre serveur Git, clonez un référentiel hébergé sur votre serveur Git privé via le cluster proxy. Un clone réussi confirme que le proxy de serveur Git fonctionne pour votre espace de travail.
Étape 4 : Créer des référentiels Git avec proxy
Une fois que les utilisateurs ont configuré leurs informations d’identification Git, aucune autre étape n’est nécessaire pour créer ou synchroniser des référentiels. Pour configurer les informations d’identification et les référentiels d’accès par programmation, consultez Configurer les informations d’identification Git et connecter un référentiel distant à Azure Databricks.
Supprimer les autorisations GLOBAL CAN ATTACH TO
Le proxy de serveur Git ne nécessite CAN ATTACH TO pas d’autorisation pour un utilisateur. Pour empêcher les utilisateurs d’exécuter des charges de travail arbitraires sur le cluster proxy, limitez les autorisations de liste de contrôle d’accès au cluster (ACL) sur le serveur proxy :
Cliquez sur Calcul dans la barre latérale, puis sur l'icône
à côté de l'entrée de calcul pour le proxy Git Server que vous exécutez.
Cliquez sur Modifier les autorisations.
Dans la boîte de dialogue, supprimez l’entrée Can Attach To pour tous les utilisateurs.
Dépannage
Cette section traite des problèmes courants et de la façon de les diagnostiquer.
Liste de vérification des problèmes courants
Avant de commencer à diagnostiquer une erreur, confirmez ce qui suit :
- Votre cluster proxy s’exécute avec ce notebook de débogage Git pour serveur proxy.
- Vous êtes administrateur d’espace de travail.
Exécutez le reste du bloc-notes de débogage et capturez les résultats. Si vous ne pouvez pas résoudre le problème ou si vous ne constatez aucun échec signalé, le support technique de Databricks peut examiner les résultats. Exportez et envoyez le notebook de débogage sous forme d’archive DBC si demandé.
Modifier votre configuration de proxy Git
Si votre service proxy Git ne fonctionne pas avec la configuration par défaut, définissez des variables d’environnement pour prendre en charge votre infrastructure réseau.
Utilisez les variables d’environnement suivantes pour mettre à jour la configuration de votre service proxy Git :
| Variable d’environnement | Format | Descriptif |
|---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true/false |
Définissez cette valeur false si vous utilisez un certificat auto-signé pour votre serveur Git privé. |
GIT_PROXY_CA_CERT_PATH |
Chemin d’accès au fichier (chaîne) | Définissez-le sur le chemin d’accès à un fichier de certificat d’autorité de certification utilisé pour la vérification SSL. Exemple : /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Définissez-le sur l’URL HTTPS du proxy de pare-feu de votre réseau pour le trafic HTTP. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Numéro de port (entier) | Définissez-le sur le numéro de port affecté au port HTTP de votre serveur Git. |
Pour définir ces variables d’environnement :
- Accédez à l’onglet Calcul dans votre espace de travail Azure Databricks.
- Sélectionnez la configuration de calcul pour votre service proxy Git.
- En bas du volet Configuration , développez Avancé et sélectionnez l’onglet Spark .
- Ajoutez des variables d’environnement au champ Variables d’environnement .
Inspecter les journaux sur le cluster de proxy
Le fichier dans /databricks/git-proxy/git-proxy.log sur le cluster de proxy contient des journaux d’activité utiles à des fins de débogage.
Le fichier journal doit commencer par Data-plane proxy server binding to ('', 8000)…. Si ce n’est pas le cas, le serveur proxy n’a pas démarré correctement. Redémarrez le cluster ou supprimez le cluster et réexécutez le bloc-notes d’activation.
Si le fichier journal commence par cette ligne, passez en revue les instructions de journal qui suivent pour chaque requête Git lancée par les opérations Git dans les dossiers Git Databricks.
Par exemple :
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
Les journaux d’erreurs écrits dans ce fichier peuvent être utiles pour vous aider ou aider le support Databricks à déboguer les problèmes.
Erreurs de certificat SSL
L’erreur suivante peut s’afficher :
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SSL problems
Cela signifie souvent que vous utilisez un référentiel qui nécessite des certificats SSL spéciaux. Vérifiez le /databricks/git-proxy/git-proxy.log fichier sur le cluster proxy. Si la validation du certificat a échoué, ajoutez l’autorité de certification à la chaîne de certificats système :
- Extrayez le certificat racine à l’aide de votre navigateur ou d’une autre méthode, puis chargez-le dans le système de fichiers Databricks.
- Modifiez le cluster Git folders Git Proxy pour définir la
GIT_PROXY_CA_CERT_PATHvariable d’environnement pour qu’elle pointe vers le fichier de certificat racine. Consultez Variables d’environnement.
Une fois ces étapes terminées, redémarrez le cluster.
Questions fréquemment posées
Voici des questions courantes sur la configuration et l’utilisation du proxy de serveur Git.
Comment vérifier si le proxy Git est en cours d’exécution ?
Importez et exécutez le notebook de débogage du proxy Git. Les résultats indiquent s’il existe des problèmes avec le service proxy Git.
Les espaces de travail peuvent-ils partager des clusters proxy ?
Chaque espace de travail Azure Databricks nécessite son propre cluster proxy. Vous ne pouvez pas partager un cluster proxy sur plusieurs espaces de travail, et chaque espace de travail ne peut avoir qu’un seul cluster de serveur proxy Git.
Puis-je acheminer uniquement du trafic Git via le proxy ?
Tous les itinéraires de trafic liés aux dossiers Git de Databricks passent par le cluster proxy, y compris pour les dépôts Git publics. Votre espace de travail Azure Databricks ne fait pas la distinction entre les référentiels proxiés et non proxiés.
Quels fournisseurs Git sont pris en charge ?
Les dossiers Databricks Git prennent en charge GitHub Enterprise, Bitbucket Server, Azure DevOps Server et GitLab auto-gérés. D’autres fournisseurs de serveurs Git d’entreprise doivent également fonctionner s’ils sont conformes aux spécifications Git courantes.
La signature de validation GNU Privacy Guard (GPG) est-elle prise en charge ?
Non.
Le transport SSH est-il pris en charge ?
Non. Seul HTTPS est pris en charge.
Puis-je utiliser un port HTTPS non défini par défaut ?
Le notebook d’activation suppose que votre serveur Git utilise le port HTTPS par défaut 443. Définissez la variable GIT_PROXY_CUSTOM_HTTP_PORT d’environnement pour utiliser un autre port.
Les utilisateurs doivent-ils modifier les URL Git pour le proxy ?
Non. Les utilisateurs entrent l’URL normale du référentiel Git, par https://git.company.com/org/repo-name.gitexemple . Tout le trafic Git destiné aux dossiers Git de Databricks est acheminé via le proxy de manière transparente.
Comment l’authentification fonctionne-t-elle avec le proxy ?
Oui, le proxy utilise les informations d’identification Git de l’utilisateur pour s’authentifier auprès du serveur Git. L’accès est limité par les autorisations spécifiées dans ces informations d’identification.