Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule przedstawiono zalecenia dotyczące używania bezserwerowych obliczeń w notesach i zadaniach.
Postępując zgodnie z tymi zaleceniami, zwiększysz produktywność, wydajność i niezawodność obciążeń w usłudze Azure Databricks.
Migrowanie obciążeń do obliczeń bezserwerowych
Aby zapewnić izolację kodu użytkownika w udostępnionym środowisku obliczeniowym bezserwerowym , usługa Azure Databricks korzysta z usługi Lakeguard, aby odizolować kod użytkownika od aparatu Spark i innych użytkowników.
W związku z tym niektóre obciążenia wymagają zmian kodu w celu kontynuowania pracy nad obliczeniami bezserwerowymi. Aby uzyskać listę ograniczeń, zobacz Ograniczenia obliczeniowe bezserwerowe.
Niektóre obciążenia są łatwiejsze do migracji niż inne. Obciążenia spełniające następujące wymagania będą najłatwiejsze do zmigrowania:
- Uzyskiwane dane muszą być przechowywane w Unity Catalog.
- Obciążenie powinno być zgodne ze standardowymi obliczeniami.
- Obciążenie powinno być zgodne z środowiskiem Databricks Runtime 14.3 lub nowszym.
Aby sprawdzić, czy obciążenie będzie działać na obliczeniach bezserwerowych, uruchom je w klasycznym zasobie obliczeniowym z trybem dostępu w warstwie Standardowa i środowiskiem Databricks Runtime w wersji 14.3 lub nowszej. Jeśli przebieg zakończy się pomyślnie, obciążenie jest gotowe do migracji.
Wiele starszych obciążeń nie będzie bezproblemowo migrowanych. Zamiast ponownie kodować wszystko, zaleca się traktowanie zgodności obliczeń bezserwerowych jako priorytetu podczas tworzenia nowych obciążeń w usłudze Azure Databricks.
Określanie wersji pakietów języka Python
Podczas migracji do obliczeń bezserwerowych przypnij pakiety języka Python do określonych wersji, aby zapewnić powtarzalne środowiska. Jeśli nie określisz wersji, pakiet może rozpoznać inną wersję na podstawie wersji środowiska bezserwerowego, co może zwiększyć opóźnienie, ponieważ należy zainstalować nowe pakiety.
Na przykład plik requirements.txt powinien zawierać określone wersje pakietów, takie jak:
numpy==2.2.2
pandas==2.2.3
Wersje środowiska bezserwerowego
Środowisko obliczeniowe bezserwerowe używa wersji środowiska zamiast tradycyjnych wersji środowiska Databricks Runtime. Oznacza to zmianę sposobu zarządzania zgodnością obciążeń:
- Podejście do środowiska Databricks Runtime: wybierz określoną wersję środowiska Databricks Runtime dla obciążenia i ręcznie zarządzaj uaktualnieniami, aby zachować zgodność.
- Podejście bezserwerowe: kod jest pisany względem wersji środowiska, a usługa Azure Databricks niezależnie uaktualnia bazowy serwer.
Wersje środowiska zapewniają stabilny interfejs API klienta, który zapewnia zgodność obciążenia, podczas gdy usługa Azure Databricks niezależnie zapewnia ulepszenia wydajności, ulepszenia zabezpieczeń i poprawki błędów bez konieczności wprowadzania zmian kodu w obciążeniach.
Każda wersja środowiska zawiera zaktualizowane biblioteki systemowe, funkcje i poprawki błędów przy zachowaniu zgodności z poprzednimi wersjami obciążeń. Usługa Azure Databricks obsługuje każdą wersję środowiska przez trzy lata od daty wydania, zapewniając przewidywalny cykl życia planowania uaktualnień.
Aby wybrać wersję środowiska dla obciążenia bezserwerowego, zobacz Wybieranie wersji środowiska. Aby uzyskać szczegółowe informacje o dostępnych wersjach środowiska i ich funkcjach, zobacz Wersje środowiska bezserwerowego.
Pozyskiwanie danych z systemów zewnętrznych
Ponieważ przetwarzanie bezserwerowe nie obsługuje instalacji plików JAR, nie można użyć sterownika JDBC lub ODBC do pozyskiwania danych z zewnętrznego źródła danych.
Alternatywne strategie, których można użyć do spożycia, obejmują:
- Bloki konstrukcyjne oparte na SQL, takie jak COPY INTO i tabele strumieniowe.
- Automatyczne ładowanie w celu przyrostowego i wydajnego przetwarzania nowych plików danych w miarę ich przybycia do magazynu w chmurze. Zobacz Co to jest moduł automatycznego ładowania?.
- Rozwiązania partnerów pozyskiwania danych. Zobacz Połączenie z partnerami wdrażania przez Partner Connect.
- Interfejs użytkownika dodawania danych do bezpośredniego przekazywania plików. Zobacz Przekazywanie plików do usługi Azure Databricks.
Alternatywy pozyskiwania
W przypadku korzystania z obliczeń bezserwerowych można również użyć następujących funkcji, aby wykonywać zapytania dotyczące danych bez ich przenoszenia.
- Jeśli chcesz ograniczyć duplikowanie danych lub zagwarantować, że wykonujesz zapytania dotyczące najświeższych możliwych danych, Databricks zaleca korzystanie z Delta Sharing. Zobacz Co to jest Delta Sharing?.
- Jeśli chcesz wykonać pracę w zakresie raportowania ad hoc i weryfikacji koncepcji, Databricks zaleca wypróbowanie odpowiedniego rozwiązania, którym może być Federacja Lakehouse. Lakehouse Federation umożliwia synchronizowanie całych baz danych z zewnętrznych systemów do Azure Databricks i jest zarządzana przez Unity Catalog. Zobacz Co to jest Federacja Lakehouse?.
Wypróbuj jedną lub obie te funkcje i sprawdź, czy spełniają wymagania dotyczące wydajności zapytań.
Obsługiwane konfiguracje platformy Spark
Aby zautomatyzować konfigurację platformy Spark na obliczeniach bezserwerowych, usługa Azure Databricks usunęła obsługę ręcznego ustawiania większości konfiguracji platformy Spark. Aby wyświetlić listę obsługiwanych parametrów konfiguracji platformy Spark, zobacz Konfigurowanie właściwości platformy Spark dla notesów i zadań bezserwerowych.
Wykonanie zadania na bezserwerowym środowisku obliczeniowym zakończy się niepowodzeniem, jeśli ustawisz nieobsługiwaną konfigurację platformy Spark.
Monitorowanie kosztów obliczeń bezserwerowych
Istnieje wiele funkcji, których można użyć, aby ułatwić monitorowanie kosztów obliczeń bezserwerowych:
- Użyj bezserwerowych zasad budżetu , aby przypisywać użycie zasobów obliczeniowych bezserwerowych.
- Tabele systemowe umożliwiają tworzenie pulpitów nawigacyjnych, konfigurowanie alertów i wykonywanie zapytań ad hoc. Zobacz Monitorowanie kosztów obliczeń bezserwerowych.
- Skonfiguruj alerty budżetowe na koncie. Zobacz Tworzenie i monitorowanie budżetów.
- Importuj wstępnie skonfigurowany pulpit nawigacyjny użycia. Zobacz Importowanie pulpitu nawigacyjnego użycia.