Udostępnij przez


Zobacz wyniki oceny w portalu Microsoft Foundry

Uwaga / Notatka

Ten dokument odnosi się do portalu Microsoft Foundry (klasycznego).

🔄 Przejdź do dokumentacji Microsoft Foundry (nowej), jeśli korzystasz z nowego portalu.

Uwaga / Notatka

Ten dokument odnosi się do portalu Microsoft Foundry (nowy).

Dowiedz się, jak wyświetlić wyniki oceny w portalu Microsoft Foundry. Wyświetlanie i interpretowanie danych oceny modelu sztucznej inteligencji, metryk wydajności i ocen jakości. Uzyskaj dostęp do wyników przepływów pracy, sesji środowiska testowego i zestawu SDK, aby podejmować decyzje oparte na danych.

Po wizualizacji wyników oceny dokładnie je zbadaj. Wyświetlanie poszczególnych wyników, porównywanie ich w wielu przebiegach oceny oraz identyfikowanie trendów, wzorców i rozbieżności w celu uzyskania wglądu w wydajność systemu sztucznej inteligencji w różnych warunkach.

W tym artykule nauczysz się:

  • Znajdź i otwórz przebiegi testowe.
  • Wyświetl metryki agregacji i na poziomie próbki.
  • Porównaj wyniki między przebiegami.
  • Interpretowanie kategorii metryk i obliczeń.
  • Rozwiązywanie problemów z brakującymi lub częściowymi metrykami.

Wyświetlanie wyników oceny

Po przesłaniu oceny znajdź przebieg na stronie Ocena . Filtruj lub dopasuj kolumny, aby skupić się na interesujących operacjach. Przed przejściem do szczegółów przejrzyj metryki wysokiego poziomu.

Wskazówka

Przebieg oceny można wyświetlić przy użyciu dowolnej wersji promptflow-evals zestawu SDK lub azure-ai-evaluation wersji 1.0.0b1, 1.0.0b2, 1.0.0b3. Włącz przełącznik Pokaż wszystkie uruchomienia , aby zlokalizować przebieg.

Wybierz "Dowiedz się więcej na temat metryk" dla definicji i formuł.

Zrzut ekranu przedstawiający szczegóły metryk oceny.

Wybierz rundę, aby otworzyć szczegóły (zestaw danych, typ zadania, monit, parametry) oraz metryki dla pojedynczego przykładu. Pulpit nawigacyjny metryk wizualizuje szybkość przekazywania lub agregację wyników na metrykę.

Ostrzeżenie

Użytkownicy, którzy wcześniej zarządzali wdrożeniami modelu i uruchamiali oceny przy użyciu programu oai.azure.com, a następnie dołączeni do platformy deweloperów Microsoft Foundry, mają następujące ograniczenia w przypadku korzystania z programu ai.azure.com:

  • Ci użytkownicy nie mogą wyświetlać swoich ocen utworzonych za pomocą interfejsu API usługi Azure OpenAI. Aby wyświetlić te oceny, muszą wrócić do strony oai.azure.com.
  • Ci użytkownicy nie mogą używać interfejsu API usługi Azure OpenAI do uruchamiania ocen w usłudze Foundry. Zamiast tego powinni nadal używać oai.azure.com dla tego zadania. Mogą jednak używać ewaluatorów usługi Azure OpenAI, które są dostępne bezpośrednio w rozwiązaniu Foundry (ai.azure.com) w opcji tworzenia oceny zestawu danych. Opcja dokładnej oceny modelu nie jest obsługiwana, jeśli wdrożenie jest migracją z usługi Azure OpenAI do rozwiązania Foundry.

W scenariuszu przesyłania zestawu danych i użycia własnej przestrzeni magazynowej obowiązują kilka wymagań dotyczących konfiguracji:

  • Uwierzytelnianie konta musi być identyfikatorem Entra firmy Microsoft.
  • Przechowywanie należy dodać do konta. Dodanie go do projektu powoduje błędy usługi.
  • Użytkownicy muszą dodać swój projekt do konta magazynującego za pomocą kontroli dostępu w portalu Azure.

Aby dowiedzieć się więcej na temat tworzenia ocen za pomocą ocen ewaluacyjnych OpenAI w centrum Azure OpenAI, zobacz Jak używać interfejsu Azure OpenAI w ocenie modeli rozwiązania Foundry.

W Microsoft Foundry wprowadzono koncepcję uruchomień grupowych. Możesz utworzyć wiele przebiegów w grupie, które mają wspólne cechy, takie jak metryki i zestawy danych, aby ułatwić porównywanie. Po uruchomieniu oceny znajdź grupę na stronie Ocena , która zawiera listę ocen grup i skojarzonych metadanych, takich jak liczba obiektów docelowych i data ostatniej modyfikacji.

Wybierz przebieg grupy, aby przejrzeć szczegóły grupy, w tym poszczególne metryki przebiegu i wysokiego poziomu, takie jak czas trwania przebiegu, tokeny i oceny ewaluatora, dla każdego przebiegu w ramach tej grupy.

Wybierając przebieg w tej grupie, możesz również przejść do szczegółów, aby wyświetlić szczegółowe dane wiersza dla tego konkretnego przebiegu.

Wybierz "Dowiedz się więcej na temat metryk" dla definicji i formuł.

Tablica wskaźników

W sekcji Pulpit nawigacyjny Metryki zagregowane widoki są podzielone według metryk, które obejmują jakość sztucznej inteligencji (AI Assisted), Ryzyko i bezpieczeństwo (wersja zapoznawcza), Jakość sztucznej inteligencji (NLP) i Niestandardowe (jeśli dotyczy). Wyniki są mierzone jako wartości procentowe zdań/niezdań według kryteriów wybranych przy tworzeniu oceny. Aby uzyskać bardziej szczegółowe informacje na temat definicji metryk i sposobu ich obliczania, zobacz Co to są ewaluatory?.

  • W przypadku metryk jakości sztucznej inteligencji (AI Assisted) wyniki są agregowane poprzez uśrednienie wszystkich ocen dla każdej metryki. Jeśli używasz Groundedness Pro, wyniki są binarne, a zagregowany wynik to współczynnik zdawalności: (#trues / #instances) × 100. Zrzut ekranu przedstawiający zakładkę pulpitu nawigacyjnego metryki jakości sztucznej inteligencji (AI Assisted).
  • W przypadku metryk ryzyka i bezpieczeństwa (wersja zapoznawcza) wyniki są agregowane według współczynnika wad.
    • Szkoda zawartości: procent wystąpień przekraczających próg ważności (wartość domyślna Medium).
    • W przypadku chronionego materiału i ataku pośredniego współczynnik wad jest obliczany jako procent wystąpień, w których dane wyjściowe true są używane przy użyciu formuły (Defect Rate = (#trues / #instances) × 100). Zrzut ekranu przedstawiający zakładkę pulpitu nawigacyjnego metryk ryzyka i bezpieczeństwa.
  • W przypadku metryk jakości sztucznej inteligencji (NLP) wyniki są agregowane przez średnie wyniki na metrykę. Zrzut ekranu przedstawiający zakładkę pulpitu nawigacyjnego jakości AI (NLP).

Wyniki przebiegów oceny i wskaźnik sukcesu

Każde uruchomienie można wyświetlić w grupie na stronie Przebiegi oceny i Szybkość przekazywania wyników. Ten widok przedstawia uruchomienie, cel, stan, czas trwania uruchomienia, tokeny i wskaźnik zaliczeń dla każdego wybranego ewaluatora.

Jeśli chcesz anulować zadania, możesz to zrobić, wybierając poszczególne zadania i klikając przycisk "Anuluj zadania" w górnej części tabeli.

Tabela wyników szczegółowych metryk

Użyj tabeli w obszarze pulpitu nawigacyjnego, aby sprawdzić poszczególne próbki danych. Sortuj według metryki, aby wyświetlić próbki o najgorszej wydajności i zidentyfikować systematyczne luki (nieprawidłowe wyniki, błędy bezpieczeństwa, opóźnienie). Użyj wyszukiwania do grupowania powiązanych tematów niepowodzeń. Zastosuj dostosowywanie kolumn, aby skoncentrować się na kluczowych metrykach.

Typowe akcje:

  • Filtruj pod kątem niskich wyników w celu wykrywania wzorców cyklicznych.
  • Dostosuj komunikaty lub dokonaj ich szczegółowych korekt, gdy pojawią się luki systemowe.
  • Eksportowanie do analizy offline.

Oto kilka przykładów wyników metryk dla scenariusza odpowiedzi na pytania:

Zrzut ekranu przedstawiający wyniki metryk dla scenariusza odpowiedzi na pytania.

Niektóre oceny mają subewaluatory, które umożliwiają wyświetlanie JSON wyników z subewaluacji. Aby wyświetlić wyniki, wybierz pozycję Wyświetl w formacie JSON.

Zrzut ekranu przedstawiający szczegółowe wyniki metryk z wybranym kodem JSON.

Wyświetl kod JSON w podglądzie JSON:

Zrzut ekranu przedstawiający podgląd JSON.

Oto kilka przykładów wyników metryk dla scenariusza konwersacji. Aby przejrzeć wyniki w całej konwersacji wieloturnowej, wybierz pozycję Wyświetl wyniki oceny per rundę w kolumnie Konwersacja.

Zrzut ekranu przedstawiający wyniki metryk dla scenariusza konwersacji.

Po wybraniu pozycji Wyświetl wyniki oceny na kolei zostanie wyświetlony następujący ekran:

Zrzut ekranu przedstawiający wyniki oceny na kolei.

W przypadku oceny bezpieczeństwa w scenariuszu wielomodalnym (tekst i obrazy) można lepiej zrozumieć wynik oceny, przeglądając obrazy zarówno z danych wejściowych, jak i wyjściowych w szczegółowej tabeli wyników metryk. Ponieważ ocena wielomodalna jest obecnie obsługiwana tylko w przypadku scenariuszy konwersacji, możesz wybrać opcję Wyświetl wyniki oceny na każdym etapie, aby sprawdzić dane wejściowe i wyniki dla każdego etapu.

Zrzut ekranu przedstawiający okno dialogowe obrazu z kolumny konwersacji.

Wybierz obraz, aby go rozwinąć i wyświetlić. Domyślnie wszystkie obrazy są rozmyte, aby chronić cię przed potencjalnie szkodliwą zawartością. Aby wyraźnie wyświetlić obraz, włącz przełącznik Sprawdź rozmycie obrazu .

Zrzut ekranu przedstawiający rozmyty obraz i przełącznik sprawdzania rozmycia obrazu.

Wyniki oceny mogą mieć różne znaczenie dla różnych odbiorców. Na przykład oceny bezpieczeństwa mogą generować etykietę niskiej ciężkości brutalnej zawartości, która może nie być zgodna z definicją recenzenta ludzkiego, jak poważna jest konkretna brutalna zawartość. Ustalona ocena progowa podczas tworzenia kryteriów oceny określa, czy przypisano zaliczenie, czy niezaliczenie. Istnieje kolumna Opinie człowieka , w której można wybrać ikonę kciuka w górę lub kciuk w dół podczas przeglądania wyników oceny. Tej kolumny można użyć do rejestrowania, które wystąpienia zostały zatwierdzone lub oflagowane jako nieprawidłowe przez recenzenta.

Zrzut ekranu przedstawiający wyniki metryk ryzyka i bezpieczeństwa z opiniami ludzkimi.

Aby zrozumieć metryki ryzyka zawartości, wyświetl definicje metryk w sekcji Raport lub przejrzyj dane w sekcji Pulpit metryk.

Jeśli wystąpił problem z przebiegiem, możesz również użyć logów do debugowania przebiegu oceny. Oto kilka przykładów dzienników, których można użyć do debugowania przebiegu oceny:

Zrzut ekranu przedstawiający dzienniki, których można użyć do debugowania przebiegu oceny.

Jeśli oceniasz przepływ monitu, możesz wybrać przycisk Wyświetl w przepływie , aby przejść do strony ocenianego przepływu i zaktualizować przepływ. Można na przykład dodać dodatkowe instrukcje monitu meta lub zmienić niektóre parametry i ponownie ocenić.

Dane przebiegu oceny

Aby wyświetlić szczegółowe dane dla poszczególnych biegów, wybierz nazwę biegu. Zapewnia to widok, który umożliwia wyświetlanie wyników oceny, obracając się względem każdego używanego ewaluatora.

Porównanie wyników oceny

Aby porównać dwa lub więcej wykonywań, wybierz żądane wykonywania i uruchom proces. Wybierz przycisk Porównaj lub przycisk Przełącz do widoku pulpitu nawigacyjnego, aby wyświetlić szczegółowy widok pulpitu nawigacyjnego. Analizowanie i porównywanie wydajności i wyników wielokrotnych uruchomień w celu podejmowania świadomych decyzji i ukierunkowanych ulepszeń.

Zrzut ekranu przedstawiający opcję porównywania ocen.

W przeglądzie pulpitu nawigacyjnego masz dostęp do dwóch wartościowych komponentów: porównawczego wykresu rozkładu metryk i porównawczej tabeli. Za pomocą tych narzędzi można przeprowadzić równoległą analizę wybranych przebiegów oceny. Różne aspekty poszczególnych przykładów danych można porównać z łatwością i precyzją.

Uwaga / Notatka

Domyślnie starsze przebiegi oceny mają pasujące wiersze między kolumnami. Jednak nowo uruchomione oceny muszą być celowo skonfigurowane tak, aby podczas tworzenia oceny były zgodne kolumny. Upewnij się, że ta sama nazwa jest używana jako wartość Nazwa kryteriów we wszystkich ocenach, które chcesz porównać.

Poniższy zrzut ekranu przedstawia wyniki, gdy pola są takie same:

Zrzut ekranu przedstawiający automatyczne oceny, gdy pola są takie same.

Gdy użytkownik nie używa tej samej nazwy kryteriów podczas tworzenia oceny, pola nie są zgodne, co powoduje, że platforma nie może bezpośrednio porównać wyników:

Zrzut ekranu przedstawiający automatyczne oceny, gdy pola nie są takie same.

W tabeli porównania umieść wskaźnik myszy na przebiegu, którego chcesz użyć jako punktu odniesienia, i ustaw jako linię bazową. Aktywuj przełącznik Pokaż różnicę aby zobrazować różnice między punktem odniesienia a pozostałymi przebiegami dla wartości liczbowych. Wybierz przełącznik Pokaż tylko różnicę , aby wyświetlić tylko wiersze, które różnią się między wybranymi przebiegami, pomagając zidentyfikować odmiany.

Korzystając z tych funkcji porównania, możesz podjąć świadomą decyzję o wybraniu najlepszej wersji:

  • Porównanie linii bazowej: ustawiając przebieg punktu odniesienia, można zidentyfikować punkt odniesienia, z którym można porównać inne przebiegi. Zobaczysz, jak każdy przebieg odbiega od wybranego standardu.
  • Ocena wartości liczbowej: włączenie opcji Pokaż różnicę pomaga zrozumieć zakres różnic między punktem odniesienia a innymi przebiegami. Ta informacja może pomóc w ocenie wydajności poszczególnych uruchomień pod względem określonych kryteriów oceny.
  • Izolacja różnic: funkcja Pokaż tylko różnicę usprawnia analizę, wyróżniając tylko obszary, w których występują rozbieżności między przebiegami. Te informacje mogą mieć kluczowe znaczenie w określeniu, gdzie potrzebne są ulepszenia lub korekty.

Użyj narzędzi porównawczych, aby wybrać konfigurację o najlepszej możliwej wydajności i uniknąć regresji w zakresie bezpieczeństwa lub fundamentów.

Zrzut ekranu przedstawiający wyniki oceny równoległej.

Aby ułatwić kompleksowe porównanie co najmniej dwóch uruchomień, możesz wybrać wybrane uruchomienia i zainicjować proces.

  1. Wybierz co najmniej dwa uruchomienia na stronie szczegółów oceny.
  2. Wybierz Porównaj.

Generuje on widok porównania równoległego dla wszystkich wybranych przebiegów.

Porównanie jest obliczane na podstawie testu t, co zapewnia bardziej dokładne i wiarygodne wyniki do podejmowania decyzji. Możesz użyć różnych funkcji tej funkcji:

  • Porównanie linii bazowej: ustawiając przebieg punktu odniesienia, można zidentyfikować punkt odniesienia, z którym można porównać inne przebiegi. Zobaczysz, jak każdy przebieg odbiega od wybranego standardu.
  • Ocena t-testowa statystyk: Każda komórka zawiera wyniki statystyki z różnymi kodami kolorów. Możesz również umieścić kursor na komórce, aby uzyskać rozmiar próbki i wartość p.
Legenda Definition
ImprovedStrong Wysoce istotne statystycznie (p<=0,001) i osiągnęło pożądany kierunek
ImprovedWeak Stat-sig (0.001<p<=0.05) i zmienił się w pożądanym kierunku
Obniżona wydajnośćStrong Wysoce statystycznie istotny (p<=0.001) i zmienił się w niewłaściwym kierunku
Obniżona wydajność Stat-sig (0.001<p<=0.05) i przeniósł się w niewłaściwym kierunku
ChangedStrong Bardzo istotny statystycznie (p<=0,001) i oczekiwany kierunek jest neutralny
ZmienionoSłabo Stat-sig (0.001<p<=0.05) i żądany kierunek jest neutralny
Niejednoznaczne Zbyt mało przykładów lub p>=0.05

Uwaga / Notatka

Widok porównania nie zostanie zapisany. Jeśli opuścisz stronę, możesz ponownie wybrać przebiegi i wybrać pozycję Porównaj , aby ponownie wygenerować widok.

Mierzenie luki w zabezpieczeniach jailbreak

Ocena luki w zabezpieczeniach systemu jailbreak jest pomiarem porównawczym, a nie metryką wspomaganą przez sztuczną inteligencję. Uruchamianie ocen na dwóch różnych, red-teamed zestawów danych: bazowy zestaw danych testu niepożądanego w porównaniu z tym samym niepożądanym zestawem danych testowych z wstrzyknięciami jailbreaku w pierwszym kroku. Możesz użyć symulatora danych niepożądanych, aby wygenerować zestaw danych z wstrzyknięciami systemu jailbreak lub bez niego. Upewnij się, że wartość Nazwa kryteriów jest taka sama dla każdej metryki oceny podczas konfigurowania przebiegów.

Aby sprawdzić, czy aplikacja jest podatna na jailbreak, określ punkt odniesienia i włącz opcję Wskaźniki wad jailbreak w tabeli porównawczej. Współczynnik wad jailbreaku jest procentem wystąpień w zestawie danych testowych, w których zastosowanie jailbreak generuje wyższy wynik istotności dla każdej metryki ryzyka zawartości w porównaniu z punktem odniesienia w całym zestawie danych. Wybierz wiele ocen na pulpicie nawigacyjnym Porównanie , aby wyświetlić różnicę w współczynnikach wad.

Zrzut ekranu przedstawiający wyniki oceny równoległej z włączoną wadą jailbreaku.

Wskazówka

Współczynnik błędów jailbreaku jest obliczany tylko dla zestawów danych o tym samym rozmiarze, pod warunkiem że wszystkie uruchomienia uwzględniają metryki ryzyka zawartości i bezpieczeństwa.

Omówienie wbudowanych metryk oceny

Zrozumienie wbudowanych metryk jest niezbędne do oceny wydajności i skuteczności aplikacji sztucznej inteligencji. Poznając te kluczowe narzędzia do pomiaru, możesz interpretować wyniki, podejmować świadome decyzje i dostosowywać aplikację w celu osiągnięcia optymalnych wyników.

Aby dowiedzieć się więcej, zobacz Co to są ewaluatory?.

Rozwiązywanie problemów

Objaw Możliwa przyczyna Akcja
Uruchamianie pozostaje oczekujące Duże obciążenie serwisu lub zadania w kolejce Odświeżanie, weryfikowanie limitu przydziału i ponowne przesłanie w przypadku przedłużenia
Brak metryk Nie wybrano podczas tworzenia Ponowne uruchamianie i wybieranie wymaganych metryk
Wszystkie metryki bezpieczeństwa zero Model kategorii wyłączony lub nieobsługiwany Potwierdzanie macierzy obsługi modelu i metryk
Stabilność nieoczekiwanie niska Pobieranie/niepełny kontekst Weryfikowanie budowy kontekstu/opóźnienia pobierania

Dowiedz się, jak oceniać swoje aplikacje generatywnej sztucznej inteligencji.