Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Dieses Dokument bezieht sich auf das Microsoft Foundry(klassische) Portal.
🔄 Wechseln Sie zur Microsoft Foundry-Dokumentation (neu), wenn Sie das neue Portal verwenden.
Hinweis
Dieses Dokument bezieht sich auf das Microsoft Foundry (neue) Portal.
Erfahren Sie, wie Sie Auswertungsergebnisse im Microsoft Foundry-Portal anzeigen. Anzeigen und Interpretieren von KI-Modellauswertungsdaten, Leistungsmetriken und Qualitätsbewertungen. Greifen Sie auf Ergebnisse aus Abläufen, Playground-Sitzungen und SDK zu, um datengesteuerte Entscheidungen zu treffen.
Nachdem Sie Ihre Auswertungsergebnisse visualisiert haben, prüfen Sie sie sorgfältig. Zeigen Sie einzelne Ergebnisse an, vergleichen Sie sie über mehrere Auswertungsläufe hinweg, und identifizieren Sie Trends, Muster und Diskrepanzen, um Einblicke in die Leistung Ihres KI-Systems unter verschiedenen Bedingungen zu erhalten.
In diesem Artikel lernen Sie Folgendes:
- Finden und öffnen Sie Ausführungsbewertungen.
- Aggregierte Metriken und Metriken auf Beispielebene anzeigen.
- Vergleichen Sie die Ergebnisse über verschiedene Durchläufe hinweg.
- Interpretieren von Metrikkategorien und Berechnungen.
- Problembehandlung bei fehlenden oder teilweisen Metriken.
Sehen Sie die Ergebnisse Ihrer Auswertung
Nachdem Sie eine Auswertung eingereicht haben, finden Sie den Lauf auf der Seite "Auswertung". Filtern oder passen Sie Spalten an, um sich auf interessante Ausführungen zu konzentrieren. Überprüfen Sie übergeordnete Metriken auf einen Blick vor dem Vertiefen.
Tipp
Sie können eine Auswertungsausführung mit einer beliebigen Version des promptflow-evals SDK oder azure-ai-evaluation der Version 1.0.0b1, 1.0.0b2 oder 1.0.0b3 anzeigen. Aktivieren Sie die Umschaltfläche Alle Ausführen anzeigen, um die Ausführung zu ermitteln.
Wählen Sie "Weitere Informationen zu Metriken für Definitionen und Formeln" aus.
Wählen Sie eine Ausführung aus, um Details (Dataset, Aufgabentyp, Eingabeaufforderung, Parameter) und Metriken für jede Probe anzuzeigen. Das Metrikdashboard visualisiert die Passrate oder Aggregatbewertung pro Metrik.
Vorsicht
Benutzer, die zuvor ihre Modellbereitstellungen verwaltet und Auswertungen mithilfe von oai.azure.com durchgeführt haben und anschließend zur Microsoft Foundry-Entwicklerplattform gewechselt sind, haben bei der Verwendung von ai.azure.com diese Einschränkungen:
- Diese Benutzer können ihre Auswertungen, die über die Azure OpenAI-API erstellt wurden, nicht anzeigen. Um diese Auswertungen anzuzeigen, müssen sie zurück zu
oai.azure.com. - Diese Benutzer können die Azure OpenAI-API nicht verwenden, um Auswertungen in Foundry auszuführen. Stattdessen sollten sie weiterhin
oai.azure.comfür diese Aufgabe verwenden. Sie können jedoch die Azure OpenAI-Evaluatoren verwenden, die direkt in Foundry (ai.azure.com) verfügbar sind, in der Option für die Erstellung von Datasetauswertung. Die Option für eine abgestimmte Modellauswertung wird nicht unterstützt, wenn die Bereitstellung eine Migration von Azure OpenAI zu Foundry ist.
Für das Szenario des Datasetuploads und zum Übertragen Ihres eigenen Speichers gibt es einige Konfigurationsanforderungen:
- Die Kontoauthentifizierung muss die Microsoft Entra-ID sein.
- Der Speicher muss dem Konto hinzugefügt werden. Durch das Hinzufügen zum Projekt werden Dienstfehler verursacht.
- Benutzer müssen ihr Projekt über die Zugriffssteuerung im Azure-Portal ihrem Speicherkonto hinzufügen.
Weitere Informationen zum Erstellen von Auswertungen mit OpenAI-Bewertungsnotern im Azure OpenAI-Hub finden Sie unter Verwendung von Azure OpenAI in Foundry-Modellen.
In Microsoft Foundry wird das Konzept der Gruppenausführung eingeführt. Sie können mehrere Läufe innerhalb einer Gruppe erstellen, die gemeinsame Merkmale wie Metriken und Datasets gemeinsam nutzen, um den Vergleich zu vereinfachen. Nachdem Sie eine Auswertung ausgeführt haben, suchen Sie die Gruppe auf der Seite "Auswertung ", die eine Liste der Gruppenauswertungen und zugeordneten Metadaten enthält, z. B. die Anzahl der Ziele und das Datum der letzten Änderung.
Wählen Sie eine Gruppenausführung aus, um Gruppendetails zu überprüfen, einschließlich der einzelnen Ausgeführten und allgemeinen Metriken, z. B. Ausführungsdauer, Token und Bewertungsergebnisse für jede Ausführung innerhalb dieser Gruppe.
Wenn Sie eine Ausführung innerhalb dieser Gruppe auswählen, können Sie einen Drilldown in die detaillierten Zeilendaten für diesen bestimmten Lauf ausführen.
Wählen Sie "Weitere Informationen zu Metriken für Definitionen und Formeln" aus.
Metrisches Dashboard
Im Abschnitt " Metrikdashboard " werden aggregierte Ansichten nach Metriken aufgeschlüsselt, die KI-Qualität (AI Assisted), Risiko und Sicherheit (Vorschau), AI-Qualität (NLP) und Benutzerdefiniert (falls zutreffend) umfassen. Die Ergebnisse werden als Prozentsätze von Bestehen/Nichtbestehen gemessen, basierend auf den Kriterien, die bei der Erstellung der Bewertung ausgewählt wurden. Ausführlichere Informationen zu Metrikdefinitionen und deren Berechnung finden Sie unter "Was sind Auswertungen?".
- Bei KI-Qualitätsmetriken (AI Assisted) werden Die Ergebnisse durch Durchschnittliches aller Bewertungen pro Metrik aggregiert. Wenn Sie Groundedness Pro verwenden, ist die Ausgabe zweiwertig und die aggregierte Bewertung ist die Erfolgsquote:
(#trues / #instances) × 100.
- Für Risiko- und Sicherheitsmetriken (Vorschau) werden die Ergebnisse nach Fehlerrate aggregiert.
- Inhaltsschäden: Prozentsatz der Instanzen, die den Schweregradschwellenwert überschreiten (Standard
Medium). - Bei geschützten Materialien und indirekten Angriffen wird die Fehlerrate als Prozentsatz der Instanzen, in denen die Ausgabe
trueist, anhand der Formel(Defect Rate = (#trues / #instances) × 100)berechnet.
- Inhaltsschäden: Prozentsatz der Instanzen, die den Schweregradschwellenwert überschreiten (Standard
- Bei NLP-Metriken (AI Quality) werden die Ergebnisse anhand der durchschnittlichen Bewertungen pro Metrik aggregiert.
Auswertungsläufe – Ergebnisse und Erfolgsraten
Sie können jede Ausführung in einer Gruppe auf der Seite „Auswertungsläufe“ und „Ergebniserfolgsrate" anzeigen. In dieser Ansicht werden die Ausführung, das Ziel, der Status, die Laufzeit, die Tokens und die Erfolgsrate für jeden ausgewählten Auswerter angezeigt.
Wenn Sie die Ausführung abbrechen möchten, können Sie dazu jede Ausführung auswählen und oben in der Tabelle auf "Abbrechen ausführen" klicken.
Detaillierte Metrik-Ergebnistabelle
Verwenden Sie die Tabelle unter dem Dashboard, um jedes Datenbeispiel zu prüfen. Sortieren Sie nach einer Metrik, um schlechteste Stichproben anzuzeigen, und identifizieren Sie systematische Lücken (falsche Ergebnisse, Sicherheitsfehler, Latenz). Verwenden Sie die Suche zum Clustern verwandter Fehlerthemengebiete. Wenden Sie die Spaltenanpassung an, um sich auf wichtige Metriken zu konzentrieren.
Typische Aktionen:
- Filtern Sie nach niedrigen Bewertungen, um Wiederkehrende Muster zu erkennen.
- Passen Sie Eingabeaufforderungen an oder optimieren Sie sie, wenn systemische Lücken auftreten.
- Export für Offlineanalyse.
Hier sind einige Beispiele für die Metrikergebnisse für das Fragebeantwortungsszenario:
Einige Auswertungen verfügen über Unterauswerter, mit denen Sie den JSON der Ergebnisse aus den Unterauswertern anzeigen können. Um die Ergebnisse anzuzeigen, wählen Sie "In JSON anzeigen" aus.
Zeigen Sie den JSON-Code in der JSON-Vorschau an:
Hier sind einige Beispiele für die Ergebnisse der Metriken für das Gesprächsszenario. Um die Ergebnisse in einer mehrteiligen Unterhaltung zu überprüfen, wählen Sie Auswertungsergebnisse pro Austausch anzeigen in der Spalte Unterhaltung aus.
Wenn Sie "Auswertungsergebnisse anzeigen" pro Drehung auswählen, wird der folgende Bildschirm angezeigt:
Für eine Sicherheitsbewertung in einem mehr modalen Szenario (Text und Bilder) können Sie das Auswertungsergebnis besser verstehen, indem Sie die Bilder sowohl aus der Eingabe als auch der Ausgabe in der detaillierten Metrik-Ergebnistabelle überprüfen. Da derzeit die multimodale Auswertung nur für Unterhaltungsszenarien unterstützt wird, können Sie die Auswertungsergebnisse pro Schritt anzeigen auswählen, um die Eingabe und Ausgabe für jeden Schritt zu untersuchen.
Wählen Sie das Bild aus, um es zu erweitern und anzuzeigen. Standardmäßig sind alle Bilder verschwommen, um Sie vor potenziell schädlichen Inhalten zu schützen. Um das Bild klar zu sehen, aktivieren Sie die Umschaltfläche «Bildunschärfe-Überprüfung».
Auswertungsergebnisse haben möglicherweise unterschiedliche Bedeutungen für unterschiedliche Zielgruppen. Beispielsweise könnten Sicherheitsbewertungen ein Etikett für einen geringen Schweregrad von gewalttätigen Inhalten generieren, das möglicherweise nicht mit der Definition eines menschlichen Prüfers übereinstimmt, wie schwer dieser bestimmte gewalttätige Inhalt bewertet wird. Der während der Erstellung der Auswertung festgelegte Erfolgsquote bestimmt, ob ein Erfolg oder Fehler zugewiesen wird. In der Spalte Menschliches Feedback können Sie beim Überprüfen der Auswertungsergebnisse einen Daumen nach oben oder nach unten auswählen. Mit dieser Spalte können Sie protokollieren, welche Instanzen von einem menschlichen Prüfer als falsch genehmigt oder gekennzeichnet wurden.
Um die einzelnen Metriken für Inhaltsrisiko zu verstehen, sehen Sie sich die Metrikdefinitionen im Abschnitt „Bericht“ an oder überprüfen Sie den Test im Abschnitt „Metrik-Dashboard“.
Wenn bei der Ausführung ein Fehler auftritt, können Sie die Protokolle auch verwenden, um die Auswertungsausführung zu debuggen. Im Folgenden finden Sie einige Beispiele für Protokolle, mit denen Sie die Auswertungsausführung debuggen können:
Wenn Sie einen Eingabeaufforderungsfluss auswerten, können Sie die Schaltfläche " Fluss anzeigen " auswählen, um zur ausgewerteten Flussseite zu wechseln und Den Fluss zu aktualisieren. Sie können z. B. zusätzliche Metaaufforderungsanweisungen hinzufügen oder einige Parameter ändern und neu bewerten.
Evaluierungslaufdaten
Um die Schritt-für-Schritt-Daten für einzelne Läufe anzuzeigen, wählen Sie den Namen des Laufs aus. Dies bietet eine Ansicht, mit der Sie die Auswertungsergebnisse nach Runde für jeden verwendeten Auswerter anzeigen können.
Vergleichen der Auswertungsergebnisse
Wenn Sie zwei oder mehr Ausführungen vergleichen möchten, wählen Sie die gewünschten Ausführungen aus, und starten Sie den Vorgang. Wählen Sie die Schaltfläche " Vergleichen " oder die Schaltfläche " Zur Dashboardansicht wechseln " für eine detaillierte Dashboardansicht aus. Analysieren und vergleichen Sie die Leistung und Ergebnisse mehrerer Läufe, um fundierte Entscheidungen und gezielte Verbesserungen zu treffen.
In der Dashboardansicht haben Sie Zugriff auf zwei wertvolle Komponenten: das Metrikverteilungsvergleichsdiagramm und die Vergleichstabelle. Sie können diese Tools verwenden, um eine parallele Analyse der ausgewählten Auswertungsläufe durchzuführen. Sie können verschiedene Aspekte der einzelnen Datenbeispiele mit Leichtigkeit und Präzision vergleichen.
Hinweis
Standardmäßig weisen ältere Auswertungsläufe übereinstimmende Zeilen zwischen Spalten auf. Neu ausgeführte Auswertungen müssen jedoch absichtlich so konfiguriert werden, dass während der Auswertungserstellung übereinstimmende Spalten vorhanden sind. Stellen Sie sicher, dass derselbe Name wie der Wert "Kriterienname " für alle Auswertungen verwendet wird, die Sie vergleichen möchten.
Der folgende Screenshot zeigt die Ergebnisse, wenn die Felder identisch sind:
Wenn ein Benutzer beim Erstellen der Auswertung nicht denselben Kriteriennamen verwendet, stimmen Felder nicht überein, was bewirkt, dass die Plattform die Ergebnisse nicht direkt vergleichen kann:
Zeigen Sie in der Vergleichstabelle auf den Durchlauf, den Sie als Referenzpunkt verwenden möchten, und legen Sie ihn als Basislinie fest. Aktivieren Sie den Schalter "Delta anzeigen", um Unterschiede zwischen dem Ausgangswert und anderen Durchläufen für numerische Werte zu visualisieren. Wählen Sie die Umschaltfläche " Nur Unterschied anzeigen " aus, um nur Zeilen anzuzeigen, die sich zwischen den ausgewählten Läufen unterscheiden, wodurch Variationen identifiziert werden können.
Mithilfe dieser Vergleichsfeatures können Sie eine fundierte Entscheidung treffen, um die beste Version auszuwählen:
- Baseline-Vergleich: Durch das Festlegen eines Basislaufs können Sie einen Bezugspunkt identifizieren, mit dem Sie die anderen Läufe vergleichen können. Sie können sehen, wie jede Ausführung von Ihrem gewählten Standard abweicht.
- Numerische Wertebewertung: Durch aktivieren der Option " Delta anzeigen " können Sie den Umfang der Unterschiede zwischen der Basislinie und anderen Läufen verstehen. Anhand dieser Informationen können Sie den Erfolg verschiedener Ausführungen in Bezug auf bestimmte Auswertungsmetriken bewerten.
- Unterschiedsisolation: Die Funktion "Nur Unterschied anzeigen" optimiert Ihre Analyse, indem nur die Bereiche hervorgehoben werden, in denen es Abweichungen zwischen den Läufen gibt. Diese Informationen können hilfreich sein, um festzustellen, wo Verbesserungen oder Anpassungen erforderlich sind.
Verwenden Sie Vergleichstools, um die leistungsstärkste Konfiguration auszuwählen und Regressionen in Sicherheit oder Stabilität zu vermeiden.
Um einen umfassenden Vergleich zwischen zwei oder mehr Ausführungen zu ermöglichen, können Sie die gewünschten Ausführungen auswählen und den Vorgang starten.
- Wählen Sie zwei oder mehr Läufe auf der Detailseite der Bewertung aus.
- Wählen Sie Vergleichen aus.
Es generiert eine parallele Vergleichsansicht für alle ausgewählten Ausführungen.
Der Vergleich wird basierend auf statistischen T-Tests berechnet, die sensiblere und zuverlässigere Ergebnisse für Sie zur Entscheidungsfindung bieten. Sie können verschiedene Funktionen dieses Features verwenden:
- Basislinienvergleich: Durch das Festlegen eines Baseline-Laufs können Sie einen Referenzpunkt bestimmen, an dem Sie die anderen Läufe vergleichen können. Sie können sehen, wie jede Ausführung von Ihrem gewählten Standard abweicht.
- Statistische t-test-Bewertung: Jede Zelle liefert die Stat-Sig-Ergebnisse mit unterschiedlichen Farbcodes. Sie können auch auf die Zelle zeigen, um die Stichprobengröße und den p-Wert abzurufen.
| Legende | Definition |
|---|---|
| ImprovedStrong | Highly stat-sig (p<=0.001) und bewegte sich in die gewünschte Richtung |
| ImprovedWeak | Stat-sig (0,001<p<=0,05) und in die gewünschte Richtung verschoben |
| AbgeschwächtStark | Highly stat-sig (p<=0.001) und bewegte sich in die falsche Richtung |
| DegradedWeak | Stat-sig (0.001<p<=0.05) und bewegte sich in die falsche Richtung |
| GeändertStark | "Hohe statistische Signifikanz (p<=0,001) und die gewünschte Ausrichtung ist neutral" |
| ChangedWeak | Stat-sig (0,001<p<=0,05) und gewünschte Richtung ist neutral |
| Nicht eindeutig | Zu wenige Beispiele oder p>=0,05 |
Hinweis
Die Vergleichsansicht wird nicht gespeichert. Wenn Sie die Seite verlassen, können Sie die Läufe erneut auswählen und Vergleichen auswählen, um die Ansicht neu zu generieren.
Messen der Jailbreak-Sicherheitsanfälligkeit
Die Bewertung von Jailbreak-Sicherheitsrisiken ist eine vergleichende Messung, keine KI-unterstützte Metrik. Führen Sie Auswertungen auf zwei unterschiedlichen, „Red-Teamed“-Datasets aus: ein feindseliges Test-Baseline-Dataset im Vergleich zum gleichen feindseligen Test-Dataset mit Jailbreak-Einschleusungen im ersten Schritt. Sie können den Adversarydatensimulator verwenden, um das Dataset mit oder ohne Jailbreakinjektionen zu generieren. Stellen Sie sicher, dass der Wert "Kriterienname " bei der Konfiguration der Ausführung für jede Auswertungsmetrik identisch ist.
Um zu überprüfen, ob Ihre Anwendung anfällig für Jailbreaks ist, geben Sie die Grundlage an und aktivieren Sie den Jailbreak-Fehlerraten Schieberegler in der Vergleichstabelle. Die Jailbreak-Fehlerrate ist der Prozentsatz der Instanzen in Ihrem Test-Dataset, in denen eine Jailbreak-Injektion eine höhere Schweregradbewertung für alle Inhaltsrisikometrik im Vergleich zu einer Basislinie im gesamten Dataset generiert. Wählen Sie in Ihrem Vergleichsdashboard mehrere Auswertungen aus, um die Unterschiede bei den Fehlerraten anzuzeigen.
Tipp
Die Jailbreak-Fehlerrate wird nur für Datasets derselben Größe berechnet, und wenn alle Läufe Inhaltsrisiken und Sicherheitsmetriken enthalten.
Verstehen der integrierten Auswertungsmetriken
Das Verständnis der integrierten Metriken ist für die Bewertung der Leistung und Effektivität Ihrer KI-Anwendung unerlässlich. Indem Sie sich über diese wichtigen Messtools informieren, können Sie die Ergebnisse interpretieren, fundierte Entscheidungen treffen und Ihre Anwendung optimieren, um optimale Ergebnisse zu erzielen.
Weitere Informationen finden Sie unter Was sind Bewertungen?.
Problembehandlung
| Symptom | Mögliche Ursache | Maßnahme |
|---|---|---|
| Ausführung bleibt ausstehend | Hochlast- oder Warteschlangenaufträge | Aktualisieren Sie, Überprüfen Sie das Kontingent und erneut übermitteln, falls verlängert |
| Fehlende Metriken | Beim Erstellen nicht ausgewählt | Erneutes Ausführen und Auswählen der erforderlichen Metriken |
| Alle Sicherheitsmetriken Null | Kategorie deaktiviert oder nicht unterstütztes Modell | Modell- und Metrikunterstützungsmatrix bestätigen |
| Fundiertheit unerwartet niedrig | Abruf/Kontext unvollständig | Überprüfen der Kontextkonstruktion/Abruflatenz |
Verwandte Inhalte
- Verbessern Sie niedrige Metriken durch Prompt-Iteration oder Feinabstimmung.
- Führen Sie Auswertungen in der Cloud mit dem Microsoft Foundry SDK aus.
Erfahren Sie, wie Sie Ihre generativen KI-Anwendungen auswerten: