Ręczne ocenianie wydajności modelu

7 min

We wczesnych fazach opracowywania aplikacji generowania sztucznej inteligencji chcesz szybko eksperymentować i iterować. Aby łatwo ocenić, czy wybrany model językowy i aplikacja, utworzona za pomocą "prompt flow", spełniają twoje wymagania, możesz ręcznie ocenić modele i przepływy w portalu Microsoft Foundry.

Nawet jeśli model i aplikacja są już w środowisku produkcyjnym, oceny ręczne są kluczowym elementem oceny wydajności. Jako że oceny ręczne są wykonywane przez ludzi, mogą dostarczać wgląd, który zautomatyzowane metryki mogą przeoczyć.

Przyjrzyjmy się, jak ręcznie ocenić wybrane modele i aplikację w portalu Microsoft Foundry.

Przygotowywanie monitów testowych

Aby rozpocząć proces ręcznej oceny, niezbędne jest przygotowanie zróżnicowanego zestawu monitów testowych, które odzwierciedlają zakres zapytań i zadań, które aplikacja ma obsługiwać. Te polecenia powinny obejmować różne scenariusze, w tym typowe pytania użytkowników, sytuacje brzegowe i potencjalne punkty problemowe. Dzięki temu można kompleksowo ocenić wydajność aplikacji i zidentyfikować obszary pod kątem poprawy.

Przetestuj wybrany model w interaktywnym środowisku czatu

Podczas tworzenia aplikacji do czatu używasz modelu językowego do generowania odpowiedzi. Aplikację czatu można utworzyć, opracowując przepływ monitu, który zawiera logikę aplikacji czatu i może używać wielu modeli językowych, aby ostatecznie wygenerować odpowiedź na pytanie użytkownika.

Przed przetestowaniem odpowiedzi aplikacji możesz przetestować odpowiedź wybranego modelu językowego, aby sprawdzić, czy pojedynczy model działa zgodnie z oczekiwaniami. Model wdrożony w portalu Microsoft Foundry można przetestować, wchodząc z nim w interakcję na placu zabaw czatu.

Wirtualny plac zabaw jest idealny do wczesnego rozwoju. Możesz wprowadzić monit, zobaczyć, jak reaguje model, i dostosować monit lub komunikat systemowy, aby wprowadzić ulepszenia. Po wprowadzeniu zmian możesz przetestować polecenie, aby sprawdzić, czy wydajność modelu uległa poprawie.

Ocena wielu monitów przy użyciu ocen ręcznych

Plac zabaw czatów jest łatwym sposobem na rozpoczęcie. Jeśli chcesz ręcznie ocenić wiele monitów szybciej, możesz użyć funkcji oceny ręcznej. Ta funkcja umożliwia przekazanie zestawu danych z wieloma pytaniami i opcjonalnie dodanie oczekiwanej odpowiedzi w celu oceny wydajności modelu na większym zestawie danych testowych.

Możesz ocenić odpowiedzi modelu za pomocą funkcji kciuków w górę lub w dół. Na podstawie ogólnej oceny możesz spróbować ulepszyć model, zmieniając monit wejściowy, komunikat systemowy, model lub parametry modelu.

W przypadku korzystania z ocen ręcznych można szybciej ocenić wydajność modelu na podstawie zróżnicowanego zestawu danych testowych i poprawić model na podstawie wyników testu.

Po ręcznej ocenie pojedynczego modelu możesz zintegrować model z aplikacją czatu z przepływem monitów. Każdy przepływ oparty na monitach, który tworzysz, można również ocenić ręcznie lub automatycznie. Następnie przyjrzyjmy się ocenie przepływów.

Sprzężenie zwrotne

Czy ta strona była pomocna?