Udostępnij przez


Wprowadzenie do dostosowywania dużego modelu językowego (LLM)

Uwaga / Notatka

Ten dokument odnosi się do portalu Microsoft Foundry (klasycznego).

🔍 Zapoznaj się z dokumentacją rozwiązania Microsoft Foundry (nową), aby dowiedzieć się więcej o nowym portalu.

Istnieje kilka technik dostosowywania wstępnie wytrenowanego modelu językowego do określonego zadania lub domeny. Obejmują one inżynierię promptów, RAG (generacja wspomagana pobieraniem) i dostrajanie. Te trzy techniki nie wykluczają się wzajemnie, ale są metodami uzupełniającymi, które w połączeniu mogą mieć zastosowanie do określonego przypadku użycia. W tym artykule zapoznamy się z tymi technikami, ilustracyjnymi przypadkami użycia, zagadnieniami do rozważenia i udostępnimy linki do zasobów, aby dowiedzieć się więcej i rozpocząć pracę z nimi.

Inżynieria podpowiedzi

Definicja

Inżynieria promptów to technika, która jest zarówno sztuką, jak i nauką, obejmująca projektowanie promptów dla generatywnych modeli AI. Ten proces wykorzystuje uczenie w kontekście (zero strzałów i kilka strzałów) oraz, z iteracji, poprawia dokładność i trafność w odpowiedziach, optymalizując wydajność modelu.

Ilustracyjne przypadki użycia

Menedżer ds. marketingu w firmie świadomej środowiska może używać monitów inżynieryjnych, aby pomóc w prowadzeniu modelu w celu generowania opisów, które są bardziej dopasowane do tonu i stylu marki. Na przykład mogą dodać monit, taki jak "Napisz opis produktu dla nowej linii przyjaznych dla środowiska produktów czyszczących, które podkreślają jakość, skuteczność i podkreśla wykorzystanie przyjaznych dla środowiska składników" do danych wejściowych. Pomoże to modelowi wygenerować opisy, które są zgodne z wartościami i wiadomościami marki.

Kwestie do rozważenia

  • Inżynieria promptów to punkt wyjścia do generowania pożądanych wyników z modeli generatywnych sztucznej inteligencji.

  • Tworzenie przejrzystych instrukcji: Instrukcje są często używane w monitach i kierują zachowaniem modelu. Bądź konkretny i pozostaw jak najmniej miejsca na interpretację. Użyj analogii i języka opisowego, aby ułatwić modelowi zrozumienie żądanego wyniku.

  • Eksperymentowanie i iterowanie: Tworzenie monitów to sztuka, która wymaga eksperymentowania i iteracji. Przećwicz i zyskaj doświadczenie w tworzeniu monitów dotyczących różnych zadań. Każdy model może zachowywać się inaczej, dlatego ważne jest, aby odpowiednio dostosować techniki inżynieryjne.

Wprowadzenie

RAG (Generacja rozszerzona o pobieranie danych)

Definicja

RAG (Generacja wspomagana wyszukiwaniem) to metoda, która integruje dane zewnętrzne z poleceniem wielkiego modelu językowego w celu wygenerowania odpowiednich odpowiedzi. Takie podejście jest szczególnie korzystne w przypadku używania dużego korpusu tekstu bez struktury na podstawie różnych tematów. Pozwala to na udzielanie odpowiedzi w oparciu o bazę wiedzy (KB) organizacji, co zapewnia bardziej dostosowaną i dokładniejszą odpowiedź.

Funkcja RAG jest również korzystna w przypadku odpowiadania na pytania na podstawie danych prywatnych organizacji lub gdy dane publiczne, na które trenowano model, mogły stać się nieaktualne. Pomaga to zapewnić, że odpowiedzi są zawsze aktualne i istotne, niezależnie od zmian w krajobrazie danych.

Ilustracyjny przypadek użycia

Dział kadr firmy chce zapewnić inteligentnego asystenta, który odpowiada na konkretne pytania związane z ubezpieczeniem zdrowotnym pracowników, takie jak "czy okulary są objęte?" RAG służy do pozyskiwania obszernych i licznych dokumentów związanych z zasadami planu ubezpieczeń, aby umożliwić udzielenie odpowiedzi na te konkretne typy pytań.

Kwestie do rozważenia

  • Funkcja RAG pomaga osadzać dane wyjściowe sztucznej inteligencji w rzeczywistych danych i zmniejsza prawdopodobieństwo tworzenia fałszywych danych.

  • Funkcja RAG jest przydatna, gdy konieczne jest udzielenie odpowiedzi na pytania na podstawie prywatnych danych zastrzeżonych.

  • Funkcja RAG jest przydatna, gdy możesz chcieć odpowiedzieć na ostatnie pytania (na przykład przed datą odcięcia, kiedy wersja modelu została ostatnio wytrenowana).

Wprowadzenie

Precyzyjne dostosowanie

Definicja

Dostrajanie precyzyjne, w szczególności nadzorowane dostrajanie w tym kontekście, jest procesem iteracyjnym, który dostosowuje istniejący duży model językowy do dostarczonego zestawu szkoleniowego w celu poprawy wydajności, uczenia modelu nowych umiejętności lub zmniejszenia opóźnień. Takie podejście jest stosowane, gdy model musi uczyć się i uogólniać określone tematy, szczególnie w przypadku, gdy te tematy są zazwyczaj małe w zakresie.

Dostrajanie wymaga użycia wysokiej jakości danych szkoleniowych w specjalnym przykładowym formacie w celu utworzenia nowego dostosowanego modelu dużego języka. Koncentrując się na konkretnych tematach, dostrajanie pozwala modelowi zapewnić dokładniejsze i odpowiednie odpowiedzi w tych obszarach koncentracji uwagi.

Ilustracyjny przypadek użycia

Dział IT używa biblioteki GPT-4o do konwertowania zapytań języka naturalnego na język SQL, ale stwierdził, że odpowiedzi nie zawsze są niezawodnie uziemione w schemacie, a koszt jest zbyt wysoki.

Dostrajają mini GPT-4o przy użyciu setek żądań i poprawnych odpowiedzi, tworząc model, który działa lepiej niż model bazowy, oferując niższe koszty i mniejsze opóźnienia.

Kwestie do rozważenia

  • Dostrajanie to zaawansowana umiejętność; zwiększa LLM z wiedzą po przekroczeniu daty granicznej i/lub wiedzą specyficzną dla domeny. Zacznij od oceny wydajności bazowego modelu standardowego pod kątem ich wymagań przed rozważeniem tej opcji.

  • Posiadanie punktu odniesienia dla wydajności bez dostrajania jest niezbędne do ustalenia, czy dostrajanie poprawiło wydajność modelu. Dostrajanie przy użyciu nieprawidłowych danych sprawia, że model podstawowy jest gorszy, ale bez punktu odniesienia trudno jest wykryć regresje.

  • Dobre przypadki dostrajania obejmują kierowanie modelu, aby generować zawartość w określonym i dostosowanym stylu, tonie lub formacie, albo zadania, w których informacje potrzebne do kierowania modelem są zbyt długie lub złożone, aby zmieściły się w oknie wprowadzania danych.

  • Optymalizacja kosztów

    • Dostrajanie może obniżyć koszty w dwóch wymiarach: (1) przy użyciu mniejszej liczby tokenów w zależności od zadania (2) przy użyciu mniejszego modelu (na przykład GPT-4o mini może być potencjalnie dostrojony w celu osiągnięcia tej samej jakości GPT-4o w konkretnym zadaniu).

    • Dostrajanie wiąże się z kosztami początkowymi do trenowania modelu. Ponadto dodatkowe koszty godzinowe hostowania modelu niestandardowego po jego wdrożeniu.

Wprowadzenie