Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważny
Ta dokumentacja została wycofana i może nie zostać zaktualizowana.
Databricks zaleca, aby zamiast dbx syncużywać CLI Databricks w wersji 0.205 lub nowszej, który zawiera funkcjonalność podobną do dbx sync za pomocą polecenia databricks sync.
Rozszerzenie Databricks dla programu Visual Studio Code zawiera również funkcje podobne do dbx sync zintegrowane ze środowiskiem IDE programu Visual Studio Code. Należy pamiętać, że dbx sync może synchronizować zmiany plików z lokalnego komputera deweloperskiego do DBFS, lokalizacji obszaru roboczego i folderów Git usługi Databricks w obszarach roboczych usługi Azure Databricks. Rozszerzenie usługi Databricks dla programu Visual Studio Code obsługuje synchronizowanie zmian plików tylko z plikami obszaru roboczego (/Users) i folderami Git usługi Databricks (/Repos).
Notatka
W tym artykule opisano dbx przez Databricks Labs, która jest dostarczana w stanie, w jakim jest i nie jest obsługiwana przez Databricks poprzez kanały pomocy technicznej dla klientów. Pytania i żądania funkcji można przekazać za pośrednictwem strony Problemy w repozytorium databrickslabs/dbx w witrynie GitHub.
Możesz przeprowadzać synchronizację zmian w czasie rzeczywistym z plików na swoim komputerze lokalnym z odpowiednimi plikami w obszarach roboczych Azure Databricks, używając dbx by Databricks Labs. Te pliki obszaru roboczego mogą znajdować się w DBFS lub w folderach Git usługi Databricks.
Synchronizacja plików w czasie rzeczywistym z dbx (znana również jako dbx sync) jest przydatna w scenariuszach szybkiego tworzenia kodu. Na przykład możesz użyć lokalnego zintegrowanego środowiska projektowego (IDE) do obsługi funkcji zwiększających produktywność, takich jak wyróżnianie składni, inteligentne uzupełnianie kodu, linting kodu oraz testowanie i debugowanie. Następnie możesz natychmiast przejść do obszaru roboczego i uruchomić zaktualizowany kod.
Można użyć dbx sync samodzielnie, ze zautomatyzowanymi zadaniamilub ze środowiskiem IDE.
dbx sync przepływy pracy programowania
Istnieją dwa przepływy pracy programowania dla dbx sync, jeden z systemem plików DBFS i drugi z folderami Git usługi Databricks.
Typowy przepływ pracy programowania z systemami dbx sync i DBFS to:
- Zidentyfikuj katalog lokalny zawierający pliki, które chcesz zsynchronizować z systemami DBFS.
- Zidentyfikuj ścieżkę w systemie plików DBFS, z którą chcesz zsynchronizować katalog lokalny (lub pozwól
dbx syncutworzyć domyślną ścieżkę systemu plików DBFS dla Ciebie). - Uruchom
dbx sync dbfs, aby zsynchronizować katalog lokalny ze ścieżką systemu plików DBFS.dbx syncrozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku. - W razie potrzeby wprowadź zmiany w plikach w katalogu lokalnym.
dbx syncstosuje te zmiany do odpowiednich plików w ścieżce systemu plików DBFS w czasie rzeczywistym.
Typowy przepływ pracy deweloperskiej z folderami Git dbx sync i Databricks to:
- Utwórz repozytorium za pomocą dostawcy Git , które jest obsługiwane przez foldery Git w usłudze Databricks, jeśli nie masz już dostępnego repozytorium.
- Sklonuj repozytorium do obszaru roboczego usługi Azure Databricks.
- Sklonuj repozytorium na swoją lokalną maszynę deweloperską.
- Uruchom
dbx sync repo, aby skojarzyć sklonowane repozytorium lokalne z sklonowanym repozytorium obszaru roboczego.dbx syncrozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku. - Wprowadź zmiany w plikach w lokalnym sklonowanym repozytorium zgodnie z potrzebami.
dbx syncstosuje te zmiany do odpowiednich plików w folderach Git Databricks w czasie rzeczywistym. - Okresowo wypychaj zaktualizowane pliki z sklonowanego repozytorium w obszarze roboczym do dostawcy usługi Git, aby repozytorium było aktualne u dostawcy usługi Git.
Ważny
dbx sync wykonuje tylko jednokierunkową synchronizację plików w czasie rzeczywistym ze lokalnych maszyn deweloperskich do zdalnego obszaru roboczego. W związku z tym usługa Databricks nie zaleca dokonywania zmian w obszarze roboczym usługi Azure Databricks dla plików monitorowanych przez dbx sync. Jeśli musisz wprowadzić takie zmiany w pliku inicjowane przez obszar roboczy, należy również wykonać następujące czynności:
- W przypadku zmian plików w systemie plików DBFS wprowadź odpowiednie zmiany w plikach lokalnych ręcznie.
- W przypadku zmian plików w folderach Git w Databricks, prześlij zmiany plików z obszaru roboczego do dostawcy Git. Następnie na lokalnej maszynie deweloperskiej pobierz te zmiany z serwera Git.
Wymagania
Jeśli chcesz używać dbx sync z folderami Git usługi Databricks, obszar roboczy usługi Azure Databricks musi spełniać następujące wymagania:
- Sugerowane jest klonowanie repozytorium za pomocą dostawcy usługi Git, choć nie jest to wymagane.
Na lokalnej maszynie deweloperskiej musisz mieć zainstalowane następujące komponenty:
Python w wersji 3.8 lub nowszej. Aby sprawdzić, czy język Python jest zainstalowany, i sprawdzić zainstalowaną wersję języka Python, uruchom
python --versionw terminalu lub programie PowerShell.python --versionNotatka
Niektóre instalacje
pythonmogą wymagać użyciapython3zamiastpython. Jeśli tak, zastąppythonpython3w tym artykule.. Aby sprawdzić, czy
pipjest zainstalowana, i sprawdzić zainstalowaną wersjępip, uruchompip --versionlubpython -m pip --version.pip --version # Or... python -m pip --versionNotatka
Niektóre instalacje
pipmogą wymagać użyciapip3zamiastpip. Jeśli tak, zastąppippip3w tym artykule.dbx w wersji 0.8.0 lub nowszej. Aby sprawdzić, czy
dbxjest zainstalowana, i aby sprawdzić zainstalowaną wersjędbx, uruchom poleceniedbx --version. Aby zainstalowaćdbxz poziomu indeksu pakietów języka Python (PyPI), uruchompip install dbxlubpython -m pip install dbx. (dbxzawiera dbx sync.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbxNotatka
Aby uzyskać więcej informacji na temat
dbx, zobacz dbx by Databricks Labs oraz dokumentację dbx.Interfejs wiersza polecenia usługi Databricks w wersji 0.18 lub poniżej, skonfigurowany z użyciem uwierzytelniania. Starsza wersja interfejsu wiersza polecenia usługi Databricks (wersja 0.17) zostanie zainstalowana automatycznie podczas instalacji
dbx. To uwierzytelnianie można skonfigurować na lokalnej maszynie deweloperów w jednej lub obu następujących lokalizacjach:- W zmiennych środowiskowych
DATABRICKS_HOSTiDATABRICKS_TOKEN(począwszy od starszej wersji CLI Databricks w wersji 0.8.0). - W profilu konfiguracji usługi Azure Databricks w pliku
.databrickscfg.
dbxszuka poświadczeń uwierzytelniania w tych dwóch lokalizacjach, odpowiednio.dbxużywa tylko pierwszego zestawu pasujących poświadczeń, które znajdzie.Notatka
Jeśli używasz pliku
.databrickscfg,dbx syncdomyślnie wyszukuje w tym pliku profil konfiguracji o nazwieDEFAULT. Aby określić inny profil, użyj opcji--profilepodczas uruchamiania poleceniadbx syncw dalszej części tego artykułu.nie obsługuje używania pliku .netrc do uwierzytelniania. - W zmiennych środowiskowych
Jeśli chcesz używać
dbx syncz folderami Git w Databricks, zaleca się lokalne sklonowanie repozytorium u swojego dostawcy Git, choć nie jest to wymagane. Aby wykonać klon lokalny, zapoznaj się z dokumentacją dostawcy usługi Git.
Używanie systemu plików DBFS z dbx sync
Z poziomu terminalu lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu zawierającego pliki, które chcesz zsynchronizować z systemem plików DBFS w obszarze roboczym usługi Azure Databricks.
Uruchom polecenie dbx sync, aby zsynchronizować katalog lokalny z systemem plików DBFS w obszarze roboczym w następujący sposób. (Nie zapomnij kropki (
.) na końcu, która reprezentuje bieżący katalog.dbx sync dbfs --source .Napiwek
Aby określić inny katalog źródłowy, zastąp kropkę (
.) inną ścieżką.Notatka
Jeśli pojawi się błąd
Error: No such command 'sync', prawdopodobnie instalacjadbxjest nieaktualna. Aby rozwiązać ten problem, uruchompip install --upgrade dbx==<version>lubpython -m pip install --upgrade dbx==version, gdzie<version>jest najnowszą wersjądbx. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==versiondbx syncrozpoczyna synchronizowanie plików w bieżącym katalogu lokalnym z plikami w następującej ścieżce systemu plików DBFS w obszarze roboczym.dbx syncpotwierdza to, drukujeTarget base path, a następnie ścieżkę DBFS, na przykład:/tmp/users/<your-Databricks-username>/<local-directory-name>Napiwek
Aby określić inną nazwę użytkownika lub ścieżkę systemu plików DBFS, określ odpowiednio opcje
--useri--destpo uruchomieniudbx sync.Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.
Ważny
Aby
dbx synckontynuował synchronizację, musisz mieć otwarty terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell,dbx syncprzestanie obserwować zmiany plików i zatrzymuje synchronizowanie. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.W razie potrzeby zweryfikuj zmiany pliku w poprzedniej ścieżce w systemie plików DBFS w obszarze roboczym.
Używanie folderów Git w Databricks z dbx sync
Z poziomu terminala lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu głównego, który zawiera sklonowane repozytorium od twojego dostawcy Git.
W obszarze roboczym Azure Databricks zidentyfikuj nazwę folderu Git Databricks, z którym chcesz zsynchronizować lokalne sklonowane repozytorium. Nazwę tego repozytorium można znaleźć, klikając Foldery Git na pasku bocznym obszaru roboczego.
Na lokalnej maszynie deweloperskiej uruchom polecenie dbx sync, aby zsynchronizować lokalne sklonowane repozytorium z folderami Git usługi Databricks w obszarze roboczym w następujący sposób, zastępując
<your-repo-name>nazwą repozytorium w folderach Git usługi Databricks. (Nie zapomnij kropki (.) na końcu, która reprezentuje bieżący katalog.dbx sync repo -d <your-repo-name> --source .Napiwek
Aby określić inny katalog źródłowy, zastąp kropkę (
.) inną ścieżką.Notatka
Jeśli pojawi się błąd
Error: No such command 'sync', prawdopodobnie instalacjadbxjest nieaktualna. Aby rozwiązać ten problem, uruchompip install --upgrade dbx==<version>lubpython -m pip install --upgrade dbx==version, gdzie<version>jest najnowszą wersjądbx. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==versiondbx syncrozpoczyna synchronizowanie plików w lokalnym, sklonowanym repozytorium z plikami w folderach Git w Databricks w Twoim obszarze roboczym.dbx syncpotwierdza to, drukującTarget base path, a następnie ścieżkę folderów Gita Databricks, na przykład:/Repos/<your-Databricks-username>/<your-repo-name>Napiwek
Aby określić inną nazwę użytkownika lub nazwę repozytorium, określ odpowiednio opcje
--useri--dest-repopo uruchomieniudbx sync.Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.
Ważny
Aby
dbx synckontynuował synchronizację, musisz mieć otwarty terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell,dbx syncprzestanie obserwować zmiany plików i zatrzymuje synchronizowanie. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.W razie potrzeby zweryfikuj zmiany plików w folderach Git usługi Databricks w obszarze roboczym.
Dodatkowe zasoby
- dbx dokumentacji
- Dokumentacja synchronizacji dbx
- repozytorium databrickslabs/dbx na GitHubie
- ograniczenia dbx