Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera wprowadzenie do funkcji hugging Face Transformers w usłudze Azure Databricks. Zawiera wskazówki dotyczące tego, dlaczego należy używać funkcji Przekształcanie twarzy hugging i jak zainstalować ją w klastrze.
Tło do przytulania transformatorów twarzy
Przytulanie transformatorów twarzy to platforma typu open source do uczenia głębokiego stworzona przez hugging Face. Udostępnia ona interfejsy API i narzędzia do pobierania wstępnie wytrenowanych modeli i dostrajania ich w celu zmaksymalizowania wydajności. Te modele obsługują typowe zadania w różnych modalnościach, takich jak przetwarzanie języka naturalnego, przetwarzanie obrazów, dźwięk i aplikacje wielomodalne.
Uwaga
Środowisko Databricks Runtime for Machine Learning obejmuje hugging Face transformers w środowisku Databricks Runtime 10.4 LTS ML i nowszym oraz obejmuje zestawy danych hugging Face, przyspieszają i oceniają w środowisku Databricks Runtime 13.0 ML i nowszym.
Aby sprawdzić, która wersja funkcji Hugging Face jest uwzględniona w skonfigurowanej wersji usługi Databricks Runtime ML, zobacz sekcję Biblioteki języka Python w odpowiednich informacjach o wersji.
Dlaczego warto używać przytulania transformatorów twarzy?
W przypadku wielu aplikacji, takich jak analiza tonacji i podsumowanie tekstu, wstępnie wytrenowane modele działają dobrze bez dodatkowego trenowania modelu.
Pipelines Transformers Hugging Face zawierają najlepsze praktyki i mają domyślne modele wybrane dla różnych zadań, co ułatwia rozpoczęcie pracy z nimi. Potoki ułatwiają korzystanie z procesorów GPU, gdy są dostępne, i umożliwiają przetwarzanie wsadowe elementów wysyłanych do procesora GPU w celu uzyskania lepszej wydajności przepływności.
Przytulanie twarzy zapewnia:
- Centrum modelu zawierające wiele wstępnie wytrenowanych modeli.
- 🤗 Biblioteka Transformers, która obsługuje pobieranie i używanie tych modeli dla aplikacji NLP i dostrajania. Często wymagane jest zarówno tokenizator, jak i model dla zadań przetwarzania języka naturalnego.
- 🤗 Potoki przekształcania, które mają prosty interfejs dla większości zadań przetwarzania języka naturalnego.
Instalować transformers
Jeśli wersja środowiska Databricks Runtime w klastrze nie zawiera funkcji Hugging Facetransformers, możesz zainstalować najnowszą bibliotekę hugging Face transformers jako bibliotekę PyPI usługi Databricks.
%pip install transformers
Instalowanie zależności modelu
Różne modele mogą mieć różne zależności. Usługa Databricks zaleca użycie poleceń magic %do zainstalowania tych zależności zgodnie z potrzebami.
Poniżej przedstawiono typowe zależności:
-
librosa: obsługuje dekodowanie plików audio. -
soundfile: wymagane podczas generowania niektórych zestawów danych audio. -
bitsandbytes: wymagane w przypadku używania poleceniaload_in_8bit=True. -
SentencePiece: używany jako tokenizator dla modeli NLP. -
timm: wymagane przez detrForSegmentation.
Trenowanie pojedynczego węzła
Aby przetestować i zmigrować przepływy pracy z jednym komputerem, użyj klastra z jednym węzłem.
Dodatkowe zasoby
Poniższe artykuły zawierają przykładowe notesy i wskazówki dotyczące używania funkcji Hugging Face transformers na potrzeby dostrajania dużego modelu językowego (LLM) i wnioskowania modelu w usłudze Azure Databricks.