Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Na tej stronie opisano środowisko Databricks Runtime for Machine Learning i zawiera wskazówki dotyczące tworzenia klasycznego zasobu obliczeniowego, który go używa.
Co to jest Databricks Runtime dla uczenia maszynowego?
Środowisko Databricks Runtime for Machine Learning (Databricks Runtime ML) automatyzuje tworzenie zasobu obliczeniowego przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek uczenia maszynowego i bibliotek DLL.
Biblioteki zawarte w środowisku Databricks Runtime ML
Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego. Biblioteki są aktualizowane wraz z każdą wersją w celu uwzględnienia nowych funkcji i poprawek.
Usługa Databricks wyznaczyła podzbiór obsługiwanych bibliotek jako bibliotek najwyższego poziomu. W przypadku tych bibliotek usługa Databricks zapewnia szybszy cykl aktualizacji, aktualizując do najnowszych wersji pakietów przy każdej wersji środowiska uruchomieniowego, o ile nie występują konflikty zależności. Databricks zapewnia również zaawansowane wsparcie, testowanie i optymalizacje osadzone dla najwyższej klasy bibliotek. Biblioteki najwyższego poziomu są dodawane lub usuwane tylko w przypadku głównych wydań.
- Aby uzyskać pełną listę najwyższej klasy i innych dostępnych bibliotek, zobacz uwagi do wydania dla środowiska Databricks Runtime ML.
- Aby uzyskać informacje na temat częstotliwości aktualizowania bibliotek i gdy biblioteki są przestarzałe, zobacz Zasady konserwacji uczenia maszynowego środowiska Databricks Runtime.
Możesz zainstalować dodatkowe biblioteki, aby utworzyć środowisko niestandardowe dla notatnika lub zasobu obliczeniowego.
- Aby udostępnić bibliotekę dla wszystkich notesów działających na zasobie obliczeniowym, utwórz bibliotekę o zakresie obliczeniowym. Możesz również użyć skryptu inicjowania , aby zainstalować biblioteki podczas tworzenia zasobów obliczeniowych.
- Aby zainstalować bibliotekę dostępną tylko dla określonej sesji notebooka, użyj bibliotek języka Python o zakresie notebooka.
Tworzenie zasobu obliczeniowego za pomocą środowiska Databricks Runtime dla uczenia maszynowego
Aby utworzyć zasób obliczeniowy używający środowiska Databricks Runtime dla uczenia maszynowego, zaznacz pole wyboru Uczenie maszynowe w interfejsie użytkownika tworzenia zasobów obliczeniowych. Spowoduje to automatyczne ustawienie trybu dostępu dedykowanego dla konta jako dedykowanego użytkownika. Zasób obliczeniowy można przypisać ręcznie do innego użytkownika lub innej grupy w sekcji Zaawansowane w interfejsie użytkownika tworzenia obliczeń.
W przypadku obliczeń opartych na procesorze GPU wybierz typ wystąpienia z obsługą procesora GPU w menu rozwijanym Typ procesu roboczego . Aby uzyskać pełną listę obsługiwanych typów procesorów GPU, zobacz Obsługiwane typy wystąpień.
Photon i Databricks Runtime ML
Podczas tworzenia zasobu obliczeniowego z uruchomionym środowiskiem Databricks Runtime 15.2 ML lub nowszym można włączyć funkcję Photon. Photon zwiększa wydajność aplikacji przy użyciu Spark SQL, Spark DataFrames, inżynierii cech, GraphFrames i xgboost4j. Nie oczekuje się poprawy wydajności aplikacji przy użyciu rdD platformy Spark, funkcji UDF biblioteki Pandas i języków innych niż JVM, takich jak Python. W związku z tym pakiety języka Python, takie jak XGBoost, PyTorch i TensorFlow, nie będą widzieć poprawy w narzędziu Photon.
Interfejsy API RDD platformy Spark i biblioteki MLlib platformy Spark mają ograniczoną zgodność z aplikacją Photon. Podczas przetwarzania dużych zestawów danych przy użyciu rdD platformy Spark lub biblioteki MLlib platformy Spark mogą wystąpić problemy z pamięcią platformy Spark. Zobacz Problemy z pamięcią platformy Spark.
Tryb dostępu obliczeniowego dla środowiska Databricks Runtime ML
Aby uzyskać dostęp do danych w katalogu Unity Catalog na zasobie obliczeniowym z uruchomionym Databricks Runtime ML, należy ustawić tryb dostępu na Dedykowany. Tryb dostępu jest automatycznie ustawiany w interfejsie użytkownika tworzenia zasobów obliczeniowych po zaznaczeniu pola wyboru Uczenie maszynowe .
Gdy zasób obliczeniowy ma tryb dedykowanego dostępu, zasób można przypisać do jednego użytkownika lub grupy. Po przypisaniu do grupy uprawnienia użytkownika automatycznie obniżają zakres uprawnień grupy, umożliwiając użytkownikowi bezpieczne udostępnianie zasobu innym członkom grupy.
W przypadku korzystania z trybu dedykowanego dostępu następujące funkcje są dostępne tylko w środowisku Databricks Runtime 15.4 LTS ML i nowszych wersjach:
- Szczegółowa kontrola dostępu.
- Wykonywanie zapytań do tabel utworzonych za pomocą Lakeflow Spark Declarative Pipelines, w tym tabel przesyłania strumieniowego i zmaterializowanych widoków.