Ocena wydajności modelu

Ukończone

Ocena wydajności modelu w różnych fazach ma kluczowe znaczenie dla zapewnienia jego skuteczności i niezawodności. Przed zapoznaniem się z różnymi opcjami oceny Twojego modelu, przyjrzyjmy się aspektom aplikacji, które można ocenić.

Podczas tworzenia aplikacji generującej sztuczną inteligencję użyjesz modelu językowego w aplikacji do czatu, aby wygenerować odpowiedź. Aby ułatwić podjęcie decyzji, który model chcesz zintegrować z aplikacją, możesz ocenić wydajność pojedynczego modelu językowego:

Diagram interakcji z modelem językowym.

Dane wejściowe (1) są dostarczane do modelu językowego (2), a odpowiedź jest generowana jako dane wyjściowe (3). Następnie model jest oceniany przez analizowanie danych wejściowych, danych wyjściowych i opcjonalnie porównywanie go ze wstępnie zdefiniowanymi oczekiwaną danymi wyjściowymi.

Podczas tworzenia aplikacji generowania sztucznej inteligencji możesz zintegrować model językowy z przepływem czatu:

Diagram przepływu czatu przy użyciu modelu językowego.

Przepływ czatu umożliwia organizowanie przepływów wykonywalnych, które mogą łączyć wiele modeli językowych i kodu w języku Python. Przepływ oczekuje danych wejściowych (1), przetwarza je przez wykonywanie różnych węzłów (2) i generuje dane wyjściowe (3). Możesz ocenić pełny przepływ czatu i jego poszczególne składniki.

Podczas oceniania rozwiązania możesz zacząć od testowania pojedynczego modelu i w końcu przetestować pełny przepływ czatu, aby sprawdzić, czy generacyjna aplikacja sztucznej inteligencji działa zgodnie z oczekiwaniami.

Przyjrzyjmy się kilku metodom oceny modelu i przepływu czatu lub aplikacji sztucznej inteligencji generatywnej.

Wzorce modeli

Testy porównawcze modeli to publicznie dostępne metryki dla modeli i zestawów danych. Te testy porównawcze pomagają zrozumieć, jak model działa względem innych. Niektóre często używane testy porównawcze to:

  • Dokładność: porównuje wygenerowany tekst modelu z prawidłową odpowiedzią zgodnie z zestawem danych. Wynik jest taki, jeśli wygenerowany tekst pasuje dokładnie do odpowiedzi i zero w przeciwnym razie.
  • Spójność: Mierzy, czy dane wyjściowe modelu przepływa płynnie, odczytuje naturalnie i przypomina język podobny do ludzkiego
  • Płynność: ocenia, jak dobrze wygenerowany tekst jest zgodny z regułami gramatycznymi, strukturami składniowymi i odpowiednim użyciem słownictwa, co skutkuje poprawną językowo i naturalnie brzmiącą odpowiedziami.
  • Podobieństwo GPT: Kwantyfikuje semantyczne podobieństwo między zdaniem rzeczywistym (lub dokumentem) a zdaniem przewidywanym wygenerowanym przez model sztucznej inteligencji.

W portalu Microsoft Foundry można zapoznać się z testami porównawczymi modelu dla wszystkich dostępnych modeli przed wdrożeniem modelu:

Zrzut ekranu przedstawiający testy porównawcze modelu w portalu Microsoft Foundry.

Oceny ręczne

Oceny ręczne obejmują osoby oceniające jakość odpowiedzi modelu. Takie podejście zapewnia wgląd w aspekty, które zautomatyzowane metryki mogą przegapić, takie jak znaczenie kontekstu i zadowolenie użytkowników. Osoby ewaluujące ludzi mogą oceniać odpowiedzi na podstawie kryteriów, takich jak istotność, informatywność i zaangażowanie.

Metryki wspomagane przez sztuczną inteligencję

Metryki wspomagane przez sztuczną inteligencję używają zaawansowanych technik do oceny wydajności modelu. Te metryki mogą obejmować:

  • Metryki jakości generowania: te metryki oceniają ogólną jakość wygenerowanego tekstu, biorąc pod uwagę czynniki takie jak kreatywność, spójność i przestrzeganie żądanego stylu lub tonu.

  • Metryki ryzyka i bezpieczeństwa: Te metryki oceniają potencjalne zagrożenia i obawy dotyczące bezpieczeństwa związane z danymi wyjściowymi modelu. Pomagają one zapewnić, że model nie generuje szkodliwej lub stronniczej zawartości.

Metryki przetwarzania języka naturalnego

Metryki przetwarzania języka naturalnego (NLP) są również przydatne podczas oceniania wydajności modelu. Jedną z takich metryk jest wynik F1, który mierzy stosunek liczby wspólnych słów między wygenerowanymi a właściwymi odpowiedziami (ground truth). Wynik F1 jest przydatny do zadań takich jak klasyfikacja tekstu i pobieranie informacji, gdzie precyzja i czułość są ważne. Inne typowe metryki NLP obejmują:

  • BLEU: Metryka pomocniczej oceny dwujęzycznej
  • METEOR: Metryka oceny tłumaczenia z jawną kolejnością
  • ROUGE: Recall-Oriented Zastępca do oceny skrótów tekstów

Wszystkie te metryki są używane do kwantyfikacji poziomu nakładania się na siebie odpowiedzi wygenerowanej przez model i podstawowej prawdy (oczekiwanej odpowiedzi).