Automatisierte Auswertungen
Mit automatisierten Auswertungen im Microsoft Foundry-Portal können Sie die Qualität und Die Inhaltssicherheitsleistung von Modellen, Datasets oder Aufforderungsflüssen bewerten.
Auswertungsdaten
Um ein Modell auszuwerten, benötigen Sie einen Datensatz mit Anfragen und Antworten (und optional erwartete Antworten als "Ground Truth"). Sie können dieses Dataset manuell kompilieren oder die Ausgabe aus einer vorhandenen Anwendung verwenden. Aber eine nützliche Möglichkeit für die ersten Schritte besteht darin, ein KI-Modell zu verwenden, um eine Reihe von Eingabeaufforderungen und Antworten im Zusammenhang mit einem bestimmten Thema zu generieren. Anschließend können Sie die generierten Eingabeaufforderungen und Antworten bearbeiten, um Ihre gewünschte Ausgabe widerzuspiegeln, und sie als Referenz verwenden, um die Antworten eines anderen Modells zu bewerten.
Auswertungsmetriken
Mit der automatisierten Auswertung können Sie auswählen, welche Bewerter Sie die Antworten Ihres Modells bewerten möchten und welche Metriken diese Auswertungen berechnen sollen. Es gibt Evaluatoren, die Ihnen helfen, Folgendes zu messen:
- KI-Qualität: Die Qualität der Antworten Ihres Modells wird mithilfe von KI-Modellen gemessen, um sie anhand von Metriken wie Kohärenz und Relevanz zu bewerten und standardmäßige NLP-Metriken wie F1-Bewertung, BLEU, METEOR und ROUGE basierend auf der Grundwahrheit (in Form des erwarteten Antworttexts) zu bewerten.
- Risiko und Sicherheit: Bewertungen der Antworten auf Sicherheitsfragen von Inhalten, einschließlich Gewalt, Hass, sexueller Inhalte und Inhalten im Zusammenhang mit Selbstschäden.