Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Pakiety zasobów usługi Databricks, znane również po prostu jako pakiety, zawierają artefakty, które chcesz wdrożyć, oraz ustawienia zasobów usługi Azure Databricks, takich jak zadania, które chcesz uruchomić, i umożliwiają programowe weryfikowanie, wdrażanie i uruchamianie. Zobacz Co to są pakiety zasobów usługi Databricks?.
Na tej stronie opisano sposób tworzenia pakietu w celu programowego zarządzania zadaniem. Zobacz Zadania lakeflow. Pakiet jest tworzony przy użyciu domyślnego szablonu pakietu zasobów usługi Databricks dla języka Python, który składa się z notesu i definicji zadania do jego uruchomienia. Następnie należy zweryfikować, wdrożyć i uruchomić wdrożone zadanie w obszarze roboczym usługi Azure Databricks.
Wskazówka
Jeśli masz istniejące zadania utworzone przy użyciu interfejsu użytkownika lub interfejsu API usługi Lakeflow Jobs, które chcesz przenieść do pakietów, musisz zdefiniować je w plikach konfiguracji pakietu. Usługa Databricks zaleca najpierw utworzenie pakietu, wykonując poniższe kroki, a następnie sprawdzenie, czy pakiet działa. Następnie możesz dodać do pakietu dodatkowe definicje zadań, notesy i inne źródła. Zobacz Pobieranie istniejącej definicji zadania przy użyciu interfejsu użytkownika.
Jeśli chcesz utworzyć pakiet od podstaw, zobacz Ręczne tworzenie pakietu.
Wymagania
- Interfejs CLI Databricks w wersji 0.218.0 lub nowszej. Aby sprawdzić zainstalowaną wersję Databricks CLI, uruchom polecenie
databricks -v. Aby zainstalować interfejs wiersza polecenia usługi Databricks, zobacz Instalowanie lub aktualizowanie interfejsu wiersza polecenia usługi Databricks. - Program uv jest wymagany do uruchamiania testów i instalowania zależności dla tego projektu ze środowiska IDE.
- Zdalny obszar roboczy Databricks musi mieć włączoną obsługę plików obszaru roboczego. Zobacz artykuł Co to są pliki obszaru roboczego?.
- Istniejący katalog. Aby utworzyć wykaz, zobacz Tworzenie wykazów.
Krok 1. Konfigurowanie uwierzytelniania
Najpierw skonfiguruj uwierzytelnianie między interfejsem wiersza polecenia usługi Databricks na maszynie deweloperskim a obszarem roboczym usługi Azure Databricks. Na tej stronie założono, że chcesz użyć uwierzytelniania użytkownika do komputera (U2M) OAuth i odpowiedniego profilu konfiguracji usługi Azure Databricks o nazwie DEFAULT na potrzeby uwierzytelniania.
Uwaga
Uwierzytelnianie U2M jest odpowiednie do wypróbowania tych kroków w czasie rzeczywistym. W przypadku w pełni zautomatyzowanych przepływów pracy usługa Databricks zaleca zamiast tego użycie uwierzytelniania maszynowego do maszyny OAuth (M2M). Zobacz instrukcje dotyczące konfigurowania uwierzytelniania M2M w temacie Autoryzowanie dostępu jednostki usługi do usługi Azure Databricks przy użyciu protokołu OAuth.
Użyj CLI usługi Databricks, aby lokalnie zainicjować zarządzanie tokenami uwierzytelniania OAuth, uruchamiając następujące polecenie dla każdego docelowego obszaru roboczego.
W poniższym poleceniu zastąp
<workspace-url>adresem URL usługi Azure Databricks na obszar roboczy, na przykładhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --host <workspace-url>Interfejs wiersza polecenia Databricks prosi o zapisanie wprowadzonych informacji jako profil konfiguracji Azure Databricks. Naciśnij
Enter, aby zaakceptować sugerowaną nazwę profilu lub wprowadź nazwę nowego lub istniejącego profilu. Każdy istniejący profil o tej samej nazwie zostanie zastąpiony wprowadzonymi informacjami. Profile umożliwiają szybkie przełączanie kontekstu uwierzytelniania między wieloma obszarami roboczymi.Aby uzyskać listę wszystkich istniejących profilów, w osobnym terminalu lub wierszu polecenia użyj interfejsu wiersza polecenia usługi Databricks, aby uruchomić polecenie
databricks auth profiles. Aby wyświetlić istniejące ustawienia określonego profilu, uruchom poleceniedatabricks auth env --profile <profile-name>.W przeglądarce internetowej wykonaj instrukcje na ekranie, aby zalogować się do obszaru roboczego usługi Azure Databricks.
Aby wyświetlić bieżącą wartość tokenu OAuth profilu i zbliżający się znacznik czasu wygaśnięcia tokenu, uruchom jedno z następujących poleceń:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Jeśli masz wiele profilów o tej samej wartości
--host, może być konieczne jednoczesne określenie opcji--hosti-p, aby pomóc interfejsowi CLI usługi Databricks w znalezieniu prawidłowych informacji pasujących do tokenu OAuth.
Krok 2. Inicjowanie pakietu
Zainicjuj pakiet przy użyciu domyślnego szablonu projektu pakietu języka Python.
Użyj terminalu lub wiersza polecenia, aby przełączyć się do katalogu na lokalnej maszynie deweloperskiej, która będzie zawierać wygenerowany pakiet szablonu.
Użyj CLI usługi Databricks, aby uruchomić polecenie
bundle init.databricks bundle initDla pola
Template to use, pozostaw wartość domyślnądefault-pythonprzez naciśnięcieEnter.W polu
Unique name for this projectpozostaw wartośćmy_projectdomyślną , lub wpisz inną wartość, a następnie naciśnijEnter. Określa nazwę katalogu głównego dla tego pakietu. Ten katalog główny jest tworzony w bieżącym katalogu roboczym.W przypadku
Include a job that runs a notebookwybierz pozycjęyesi naciśnijEnter.W przypadku
Include an ETL pipelinewybierz pozycjęnoi naciśnijEnter.W przypadku
Include a stub (sample) Python packagewybierz pozycjęnoi naciśnijEnter.W przypadku
Use serverlesswybierz pozycjęyesi naciśnijEnter. Spowoduje to, że interfejs wiersza polecenia usługi Databricks skonfiguruje pakiet do uruchamiania na bezserwerowych obliczeniach.W polu
Default catalog for any tables created by this project [hive_metastore]wprowadź nazwę istniejącego katalogu Unity Catalog.W polu
Use a personal schema for each user working on this project.wybierz pozycjęyes.
Krok 3. Eksplorowanie pakietu
Aby wyświetlić pliki wygenerowane przez szablon, przejdź do katalogu głównego nowo utworzonego pakietu. Pliki o szczególnym znaczeniu obejmują następujące elementy:
-
databricks.yml: Ten plik określa nazwę programową pakietu, zawiera odwołania do plików pakietu, definiuje zmienne katalogu i schematu oraz określa ustawienia docelowych obszarów roboczych. -
resources/sample_job.job.yml: ten plik określa ustawienia zadania, w tym domyślne zadanie notesu. Aby uzyskać informacje o ustawieniach zadania, zobacz job. -
src/: ten folder zawiera pliki źródłowe zadania. -
src/sample_notebook.ipynb: Ten notebook odczytuje przykładową tabelę. -
tests/: ten folder zawiera przykładowe testy jednostkowe. -
README.md: Ten plik zawiera dodatkowe informacje na temat rozpoczynania pracy i korzystania z tego szablonu pakietu.
Wskazówka
Ustawienia nowych klastrów zadań w pakietach można definiować, łączyć i zastępować przy użyciu technik opisanych w temacie Zastępowanie z ustawieniami docelowymi.
Krok 4. Weryfikowanie konfiguracji pakietu
Teraz sprawdź, czy konfiguracja pakietu jest prawidłowa.
Aby uruchomić polecenie
bundle validatez katalogu root, użyj interfejsu wiersza poleceń Databricks CLI.databricks bundle validateJeśli zostanie zwrócone podsumowanie konfiguracji pakietu, walidacja zakończyła się pomyślnie. Jeśli zostaną zwrócone jakiekolwiek błędy, napraw błędy, a następnie powtórz ten krok.
Krok 5. Wdrażanie pakietu w zdalnym obszarze roboczym
Następnie wdróż zadanie w zdalnym obszarze roboczym usługi Azure Databricks i sprawdź zadanie w obszarze roboczym.
W katalogu głównym pakietu użyj CLI Databricks, aby uruchomić polecenie
bundle deploy.databricks bundle deploy --target devUpewnij się, że notes został wdrożony:
- Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Obszar roboczy.
- Kliknij w folder Users >
<your-username>> .bundle ><project-name>> dev > files > src. Notatnik powinien znajdować się w tym folderze.
Sprawdź, czy zadanie zostało utworzone:
- Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Zadania i potoki.
- Opcjonalnie wybierz filtry Zadania i Należące do mnie .
- Kliknij [dev
<your-username>]sample_job. - Kliknij kartę Zadania. Powinien istnieć jeden notebook_task.
Jeśli po tym kroku wprowadzisz jakiekolwiek zmiany w pakiecie, powtórz kroki od 4 do 5, aby sprawdzić, czy konfiguracja pakietu jest nadal prawidłowa, a następnie ponownie wdrożyć projekt.
Krok 6. Uruchamianie wdrożonego zadania
Teraz uruchom zadanie w obszarze roboczym z wiersza polecenia.
Aby uruchomić polecenie
bundle runz katalogu root, użyj interfejsu wiersza poleceń Databricks CLI.databricks bundle run --target dev sample_jobSkopiuj wartość
Run URLwyświetlaną w terminalu i wklej tę wartość w przeglądarce internetowej, aby otworzyć obszar roboczy usługi Azure Databricks. Zobacz Wyświetlanie i uruchamianie zadania utworzonego za pomocą pakietów zasobów usługi DatabricksW obszarze roboczym usługi Azure Databricks, po pomyślnym zakończeniu zadania i wyświetleniu się zielonego paska tytułowego, kliknij zadanie, aby wyświetlić wyniki.
Jeśli po tym kroku wprowadzisz jakiekolwiek zmiany w pakiecie, powtórz kroki od 4 do 6, aby sprawdzić, czy konfiguracja pakietu jest nadal prawidłowa, ponownie wdrożyć projekt i uruchomić ponownie wdrożony projekt.
Krok 7. Uruchamianie testów
Na koniec użyj polecenia pytest , aby uruchamiać testy lokalnie:
uv run pytest
Krok 8. Czyszczenie
W tym kroku usuniesz wdrożony notes i zadanie z obszaru roboczego.
Aby uruchomić polecenie
bundle destroyz katalogu root, użyj interfejsu wiersza poleceń Databricks CLI.databricks bundle destroy --target devPo wyświetleniu monitu o trwałe usunięcie wszystkich plików i katalogów obszaru roboczego, wpisz
yi naciśnijEnter.Jeśli chcesz również usunąć pakiet z komputera dewelopera, możesz teraz usunąć lokalny katalog projektu.