Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Opinie ludzi są niezbędne do tworzenia wysokiej jakości aplikacji GenAI, które spełniają oczekiwania użytkowników. Platforma MLflow udostępnia narzędzia i model danych do zbierania i wykorzystywania opinii od deweloperów, użytkowników końcowych i ekspertów z dziedziny oraz zarządzania nimi. Opinie ludzi uzupełniają automatyczną ocenę. Może to pomóc w tworzeniu zestawów danych dla zautomatyzowanych sędziów i oceniających LLM, a także pomóc w zachowaniu ich zgodności z oceną ekspertów ludzkich.
Omówienie modelu danych
Platforma MLflow przechowuje opinie użytkownika jako oceny, które są przypisane do poszczególnych śladów MLflow. Spowoduje to połączenie opinii bezpośrednio z konkretnym zapytaniem użytkownika i danymi wyjściowymi i logiką aplikacji GenAI.
Istnieją 2 typy ocen:
- Opinia: ocenia rzeczywiste dane wyjściowe aplikacji lub kroki pośrednie. Na przykład odpowiada na pytania, takie jak "Czy odpowiedź agenta była dobra?". Opinia ocenia, co aplikacja wyprodukowała, na przykład oceny lub komentarze. Opinia ocenia, co zostało wygenerowane przez aplikację i zapewnia szczegółowe informacje jakościowe.
- Oczekiwanie: definiuje żądany lub poprawny wynik (prawda podstawy), który powinien zostać wygenerowany przez aplikację. Na przykład może to być "Idealna odpowiedź" na zapytanie użytkownika. W przypadku danych wejściowych oczekiwania są zawsze takie same. Oczekiwania określają, co aplikacja powinna wygenerować i które są przydatne do tworzenia zestawów danych oceny,
Oceny można dołączyć do całego wykresu lub określonego zakresu w ramach wykresu.
Aby uzyskać więcej informacji na temat śledzenia, zobacz Pojęcia dotyczące śledzenia.
Jak zbierać opinie
Rozwiązanie MLflow ułatwia zbieranie opinii z trzech głównych źródeł. Każde źródło jest dostosowane do innego przypadku użycia w cyklu życia aplikacji GenAI. Chociaż opinie pochodzą z różnych osób, bazowy model danych jest taki sam dla wszystkich osób.
Opinie deweloperów
Podczas rozwoju oprogramowania można bezpośrednio dodawać adnotacje do śladów. Jest to przydatne do śledzenia notatek dotyczących jakości podczas tworzenia i oznaczania konkretnych przykładów na potrzeby przyszłych testów referencyjnych lub regresji.
Aby dowiedzieć się, jak dodawać adnotacje do opinii podczas programowania, zobacz Etykieta podczas programowania.
Opinie ekspertów ds. domeny
Skontaktuj się z ekspertami w tej dziedzinie, aby przekazać ustrukturyzowaną opinię na temat danych wyjściowych aplikacji i zdefiniować oczekiwania dotyczące poprawnych odpowiedzi. Ich szczegółowe oceny pomagają zdefiniować, jak wyglądają odpowiedzi wysokiej jakości dla konkretnego przypadku użycia i są bezcenne do dopasowywania sędziów LLM do zniuansowanych wymagań biznesowych.
Rozwiązanie MLflow udostępnia dwa podejścia do zbierania opinii ekspertów dotyczących domeny przy użyciu aplikacji Przegląd:
Testowanie interakcyjne za pomocą interfejsu użytkownika czatu: eksperci wchodzą w interakcje z uruchomioną aplikacją w czasie rzeczywistym za pośrednictwem interfejsu czatu, udzielając natychmiastowej opinii zwrotnej o odpowiedziach podczas testowania przepływów konwersacyjnych. Takie podejście jest idealne do sprawdzania nastroju i weryfikacji jakościowej przed wdrożeniem produkcyjnym. Aby dowiedzieć się więcej, zobacz Testowanie wersji aplikacji przy użyciu interfejsu użytkownika czatu.
Etykietowanie istniejących śladów: eksperci systematycznie przeglądają i etykietują ślady, które zostały już przechwycone z Twojej aplikacji. Takie podejście jest idealne w przypadku ustrukturyzowanych sesji oceny, w których eksperci oceniają konkretne przykłady i definiują oczekiwania dotyczące prawdy podstawowej. Aby dowiedzieć się więcej, zobacz Oznacz istniejące ślady.
Opinie użytkowników końcowych
W środowisku produkcyjnym przechwyć opinie użytkowników korzystających z aplikacji na żywo. Zapewnia to kluczowy wgląd w wydajność w świecie rzeczywistym, ułatwiając identyfikowanie problematycznych zapytań, które wymagają naprawiania i wyróżniania pomyślnych interakcji w celu zachowania podczas przyszłych aktualizacji. Platforma MLflow udostępnia narzędzia do przechwytywania, przechowywania i analizowania opinii bezpośrednio od użytkowników wdrożonych aplikacji.
Aby dowiedzieć się, jak zbierać opinie użytkowników końcowych, zapoznaj się z przewodnikiem zbierania opinii użytkowników końcowych w sekcji śledzenia.
Dalsze kroki
- Wprowadzenie do zbierania opinii człowieka — zapoznaj się z tym holistycznym samouczkiem pokazującym typowe sposoby zbierania opinii człowieka.
- Etykieta podczas programowania — rozpocznij dodawanie adnotacji do śladów w celu śledzenia jakości podczas programowania.
- Przetestuj wersję aplikacji przy użyciu interfejsu użytkownika czatu — przetestuj aplikację interaktywnie przy użyciu interfejsu czatu na żywo.
- Oznacz istniejące ślady — skonfiguruj systematyczne procesy przeglądu ekspertów.