Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette documentation a été supprimée et peut ne pas être mise à jour.
Databricks recommande qu’au lieu de dbx sync, vous utilisiez les versions 0.205 ou ultérieures de l’interface CLI Databricks, qui incluent des fonctionnalités similaires à celles de la commande dbx sync à travers databricks sync.
L’extension Databricks pour Visual Studio Code inclut également des fonctionnalités similaires à celles intégrées à dbx sync l’IDE Visual Studio Code. Notez que dbx sync vous pouvez synchroniser les modifications de fichier d’un ordinateur de développement local vers des dossiers DBFS, des emplacements d’espace de travail et des dossiers Git Databricks dans vos espaces de travail Azure Databricks. L'extension Databricks pour Visual Studio Code prend en charge la synchronisation des modifications de fichiers exclusivement avec les fichiers utilisateur de l'espace de travail (/Users) et les dossiers Git de Databricks (/Repos).
Remarque
Cet article couvre dbx par Databricks Labs, qui est fourni tel quel et qui n’est pas pris en charge par Databricks par le biais des canaux de support technique client. Pour toute question ou demande de fonctionnalité, vous pouvez utiliser la page Problèmes du dépôt databrickslabs/dbx sur GitHub.
Vous pouvez effectuer une synchronisation en temps réel des modifications apportées aux fichiers sur votre ordinateur de développement local avec leurs fichiers correspondants dans vos espaces de travail Azure Databricks à l’aide de dbx by Databricks Labs. Ces fichiers d’espace de travail peuvent se trouver dans des dossiers DBFS ou Databricks Git.
La synchronisation de fichiers en temps réel avec dbx (également appelée dbx sync) est utile dans les scénarios de développement de code rapide. Par exemple, vous pouvez utiliser un environnement de développement intégré local (IDE) pour des fonctionnalités de productivité telles que la mise en surbrillance de la syntaxe, l'auto-complétion intelligente du code, l'analyse du code ainsi que le test et le débogage. Vous pouvez ensuite accéder immédiatement à votre espace de travail et exécuter votre code mis à jour.
Vous pouvez utiliser dbx sync par lui-même, avec des travaux automatisés ou avec un IDE.
dbx sync workflows de développement
Il existe deux flux de travail de développement pour dbx sync, un avec DBFS et un autre avec des dossiers Git Databricks.
Le flux de travail de développement classique avec dbx sync et DBFS est :
- Identifiez un répertoire local qui contient les fichiers que vous souhaitez synchroniser avec DBFS.
- Identifiez le chemin d’accès dans DBFS que vous souhaitez synchroniser avec votre répertoire local (ou laissez
dbx synccréer un chemin DBFS par défaut pour vous). - Exécutez
dbx sync dbfspour synchroniser votre répertoire local avec le chemin DBFS.dbx synccommence à regarder votre répertoire local pour toute modification de fichier. - Apportez des modifications aux fichiers dans votre répertoire local en fonction des besoins.
dbx syncapplique ces modifications aux fichiers correspondants dans le chemin DBFS en temps réel.
Le workflow de développement classique avec dbx sync et les dossiers Git Databricks est le suivant :
- Créez un référentiel avec un fournisseur Git pris en charge par les dossiers Git Databricks, si vous n’avez pas encore de référentiel disponible.
- Clonez votre dépôt dans votre espace de travail Azure Databricks.
- Clonez votre dépôt dans votre ordinateur de développement local.
- Exécutez
dbx sync repopour associer votre dépôt cloné local au dépôt cloné de votre espace de travail.dbx synccommence à regarder votre répertoire local pour toute modification de fichier. - Apportez des modifications aux fichiers dans votre dépôt cloné local en fonction des besoins.
dbx syncapplique ces modifications aux fichiers correspondants dans les dossiers Git Databricks en temps réel. - Envoyez régulièrement des fichiers mis à jour à partir du dépôt cloné dans votre espace de travail vers votre fournisseur Git, afin que le référentiel reste à jour avec votre fournisseur Git.
Important
dbx sync effectue uniquement une synchronisation unidirectionnelle et en temps réel des modifications de fichiers de votre ordinateur de développement local vers votre espace de travail distant. Par conséquent, Databricks ne vous recommande pas d’initier des modifications dans votre espace de travail Azure Databricks aux fichiers surveillés par dbx sync. Si vous devez apporter de telles modifications de fichier initiées par l’espace de travail, vous devez également effectuer les opérations suivantes :
- Pour les modifications de fichier dans DBFS, apportez manuellement les modifications correspondantes aux fichiers locaux.
- Pour les modifications de fichier dans les dossiers Git Databricks, envoyez les modifications de fichier de votre espace de travail à votre fournisseur Git. Ensuite, sur votre ordinateur de développement local, extrayez ces modifications de fichier à partir de votre fournisseur Git.
Spécifications
Si vous souhaitez utiliser dbx sync des dossiers Git Databricks, votre espace de travail Azure Databricks doit répondre aux exigences suivantes :
- Un clone de votre référentiel avec votre fournisseur Git, bien qu’il n’est pas obligatoire, est suggéré.
Sur votre ordinateur de développement local, vous devez avoir installé les éléments suivants :
Python version 3.8 ou ultérieure. Pour vérifier si Python est installé et vérifier la version de Python installée, exécutez
python --versionvotre terminal ou PowerShell.python --versionRemarque
Certaines installations de
pythonpeuvent nécessiter l’utilisation depython3au lieu depython. Si c’est le cas, remplacez-lepythonpython3dans l’ensemble de cet article.pip. Pour vérifier si
pipelle est installée et vérifier votre version installéepip, exécutezpip --versionoupython -m pip --version.pip --version # Or... python -m pip --versionRemarque
Certaines installations de
pippeuvent nécessiter l’utilisation depip3au lieu depip. Si c’est le cas, remplacez-lepippip3dans l’ensemble de cet article.Version dbx 0.8.0 ou ultérieure. Pour vérifier si
dbxelle est installée et pour vérifier votre version installéedbx, exécutezdbx --version. Pour effectuer l’installationdbxà partir de l’index de package Python (PyPI), exécutezpip install dbxoupython -m pip install dbx. (dbxinclut dbx sync.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbxRemarque
Pour plus d’informations sur
dbx, consultez dbx by Databricks Labs et la documentation dbx.L’interface CLI Databricks version 0.18 ou antérieure, configurée avec l’authentification. L’interface CLI Databricks héritée (Databricks CLI version 0.17) est automatiquement installée lorsque vous installez
dbx. Cette authentification peut être configurée sur votre ordinateur de développement local dans un des deux emplacements suivants (ou les deux) :- Dans les variables d’environnement
DATABRICKS_HOSTetDATABRICKS_TOKEN(à partir de l’l’interface CLI Databricks héritée version 0.8.0). - Dans un profil de configuration Azure Databricks de votre fichier
.databrickscfg.
dbxrecherche les informations d’identification d’authentification dans ces deux emplacements, respectivement.dbxutilise uniquement le premier ensemble d’informations d’identification correspondantes qu’il trouve.Remarque
Si vous utilisez un
.databrickscfgfichier,dbx syncrecherche dans ce fichier un profil de configuration nomméDEFAULTpar défaut. Pour spécifier un autre profil, utilisez l’option--profilelorsque vous exécutez ladbx synccommande, plus loin dans cet article.dbxne prend pas en charge l’utilisation d’un fichier .netrc pour l’authentification.- Dans les variables d’environnement
Si vous souhaitez utiliser
dbx syncdes dossiers Git Databricks, un clone local de votre dépôt avec votre fournisseur Git, bien qu’il n’est pas nécessaire, est suggéré. Pour effectuer un clone local, consultez la documentation de votre fournisseur Git.
Utiliser DBFS avec dbx sync
À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire qui contient les fichiers que vous souhaitez synchroniser avec DBFS dans votre espace de travail Azure Databricks.
Exécutez la commande dbx Sync pour synchroniser votre répertoire local avec DBFS dans votre espace de travail, comme suit. (N’oubliez pas le point (
.) à la fin, qui représente votre répertoire actif.)dbx sync dbfs --source .Conseil / Astuce
Pour spécifier un autre répertoire source, remplacez le point (
.) par un chemin différent.Remarque
Si l’erreur
Error: No such command 'sync's’affiche, votre installationdbxest probablement obsolète. Pour résoudre ce problème, exécutezpip install --upgrade dbx==<version>oupython -m pip install --upgrade dbx==version, où<version>est la dernière version dedbx. Ce numéro de version se trouve sur la page web PyPI pour dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==versiondbx synccommence la synchronisation des fichiers dans votre répertoire local actuel avec des fichiers dans le chemin DBFS suivant dans votre espace de travail.dbx syncconfirme cela en imprimantTarget base pathsuivi du chemin DBFS, par exemple :/tmp/users/<your-Databricks-username>/<local-directory-name>Conseil / Astuce
Pour spécifier un nom d'utilisateur ou un chemin DBFS différent, indiquez respectivement les options
--useret--destlorsque vous exécutezdbx sync.Apportez des modifications à vos fichiers locaux, si nécessaire.
Important
Vous devez conserver votre terminal ou PowerShell ouvert afin que
dbx synccontinue de synchroniser. Si vous fermez votre terminal ou PowerShell,dbx syncarrête de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichier, répétez cette procédure à partir du début.Si nécessaire, vérifiez les modifications apportées à votre fichier dans le chemin d’accès précédent dans DBFS dans votre espace de travail.
Utiliser des dossiers Git Databricks avec dbx sync
À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire racine qui contient le clone du référentiel avec votre fournisseur Git.
Dans votre espace de travail Azure Databricks, identifiez le nom du dossier Git Databricks vers lequel vous souhaitez synchroniser votre dépôt cloné local. Vous trouverez ce nom de dépôt en cliquant sur les dossiers Git dans la barre latérale de votre espace de travail.
Sur votre ordinateur de développement local, exécutez la commande dbx sync pour synchroniser votre dépôt cloné local vers les dossiers Git Databricks de votre espace de travail, comme suit, en
<your-repo-name>remplaçant par le nom de votre dépôt dans les dossiers Git Databricks. (N’oubliez pas le point (.) à la fin, qui représente votre répertoire actif.)dbx sync repo -d <your-repo-name> --source .Conseil / Astuce
Pour spécifier un autre répertoire source, remplacez le point (
.) par un chemin différent.Remarque
Si l’erreur
Error: No such command 'sync's’affiche, votre installationdbxest probablement obsolète. Pour résoudre ce problème, exécutezpip install --upgrade dbx==<version>oupython -m pip install --upgrade dbx==version, où<version>est la dernière version dedbx. Ce numéro de version se trouve sur la page web PyPI pour dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==versiondbx synccommence la synchronisation des fichiers dans votre référentiel cloné local avec des fichiers dans les dossiers Git Databricks de votre espace de travail.dbx syncconfirme cela en imprimantTarget base pathsuivi du chemin des dossiers Git Databricks, par exemple :/Repos/<your-Databricks-username>/<your-repo-name>Conseil / Astuce
Pour spécifier un nom d’utilisateur différent ou un nom de dépôt différent, spécifiez respectivement les options
--useret--dest-repolorsque vous exécutezdbx sync.Apportez des modifications à vos fichiers locaux, si nécessaire.
Important
Vous devez conserver votre terminal ou PowerShell ouvert afin que
dbx synccontinue de synchroniser. Si vous fermez votre terminal ou PowerShell,dbx syncarrête de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichier, répétez cette procédure à partir du début.Si nécessaire, vérifiez les modifications apportées à votre fichier dans les dossiers Git Databricks dans votre espace de travail.
Ressources supplémentaires
- Documentation dbx
- Documentation de synchronisation dbx
- Référentiel databrickslabs/dbx sur GitHub
- Limitations de dbx