Freigeben über


Analysieren von Testergebnissen mithilfe des Copilot Studio Kit

Das Copilot Studio Kit bietet eine umfassende Schnittstelle zur Analyse von Testergebnissen.

Testausführungsdetails

Die Agent-Testausführungsschnittstelle zeigt den Status der Testausführung an.

Der Status Description
Ausführungsstatus Hauptprozess, der jeden einzelnen Agenttest mit der Agentkonfiguration mithilfe der Direct Line-API ausführt, und erstellt einen entsprechenden Agent-Testergebnisdatensatz.
App Insights-Anreicherungsstatus Wird nur ausgeführt, wenn "Enrich With Azure Application Insights " im zugehörigen Agent-Konfigurationsdatensatz aktiviert ist.
Generierte Antwortanalyse Wird nur ausgeführt, wenn "Generierte Antworten analysieren" im zugehörigen Agent-Konfigurationsdatensatz aktiviert ist.
Dataverse Anreicherungsstatus Wird nur ausgeführt, wenn "Mit Unterhaltungstranskripten anreichern" im zugehörigen Agent-Konfigurationsdatensatz aktiviert ist.

Erfahren Sie mehr über die Agentkonfigurationseinstellungen in "Agents konfigurieren" im Copilot Studio Kit.

Die folgende Abbildung zeigt die Testausführungsschnittstelle, in der Sie Details zur Testausführung anzeigen können.

Screenshot der Schnittstelle

Aggregierte Ergebnisse

Nachdem ein Cloudfluss ausgeführt wurde, berechnet das System die aggregierten Ergebnisse.

Aggregiertes Ergebnis Description
# Tests Anzahl der Testergebnisse.
Erfolgsquote (%) Prozentsatz der Testergebnisdatensätze mit einem Erfolgsergebnis im Vergleich zur Gesamtzahl der Testergebnisse.
Durchschnittliche Latenz (ms) Durchschnittliche Zeit in Millisekunden, die der Agent benötigt, um die Nachricht zu senden, nachdem er die Testäußerung empfangen hat.
# Erfolg Anzahl der Testergebniseinträge mit einem Erfolgsergebnis.
# Fehlgeschlagen Anzahl der Testergebniseinträge mit einem fehlgeschlagenen Ergebnis.
# Ausstehend Anzahl der Testergebniseinträge mit einem ausstehenden Ergebnis.
# Unbekannt Anzahl der Testergebniseinträge mit einem unbekannten Ergebnis.
# Fehler Anzahl der Testergebnisdatensätze mit einem Fehlerergebnis.

Detaillierte Ergebnisse

Analysieren Sie die Ergebnisse, nachdem Sie jeden Schritt abgeschlossen haben, da einige Ergebnisse erst nach Abschluss der Schritte verfügbar sind. Beispielsweise benötigen die Topic Match-Tests die Dataverse-Anreicherung, um vollständig durchgeführt zu werden, da nur dieser Schritt Informationen über den ausgelösten Themennamen bereitstellt.

Sie können die Ergebnisansicht bearbeiten, um die Ergebnisse einzeln anzupassen.

Jedes Ergebnis enthält einen Abschnitt "Ergebnisgrund", der automatisch mit einer Erklärung für das Ergebnis aufgefüllt wird. Für KI-generierte Bewertungen empfiehlt es eine menschliche Überprüfung: "KI-generierte Bewertung der Antwort. Bitte überprüfen." Tester können dieses Attribut verwenden, um eigene Kommentare und Notizen zu einem Test hinzuzufügen.

Screenshot eines Datensatzes der Agent-Testausführung mit der Spalte „Ergebnisgrund“ auf der rechten Seite der Schnittstelle.

Für jeden der folgenden Testtypen können Sie den Ergebnisfilter verwenden, um nur die Ergebnisse eines bestimmten Typs anzuzeigen:

  • Ergebnisse von generativen Antworten
  • Ergebnisse des Antwortabgleichs
  • Themen-Übereinstimmungsergebnisse
  • Anhangergebnisse

Screenshot der für Ergebnisse verfügbaren Systemansichtsoptionen.

Details zum Agenttestergebnis

Das Formular "Agent Test Result" enthält Details zu jeder einzelnen Testausführung. Das System erstellt diese Datensätze automatisch.

Spaltenname Description
Unterhaltungs-ID ID der Unterhaltung, die von der Direct Line-API bereitgestellt wird.
Agent-Testausführung Testausführung, auf die sich der Datensatz bezieht.
Agenttest Testen Sie, ob sich der Datensatz darauf bezieht. Sie können die Testdetails in einem Schnellansichtsformular anzeigen.
Ergebnis Ergebnis: Success, , FailedUnknown, Error, . Pending
Explanation Automatisch generierte Erklärung des Ergebnisses.
Latenz (ms) Zeit in Millisekunden, die der Agent benötigt, um die Nachricht zurückzusenden, nachdem die Testmeldung empfangen wurde.
Nachricht gesendet Zeitstempel der Nachricht, die der Benutzer sendet.
Empfangene Antwort Zeitstempel der Nachricht, die der Agent sendet.
Antwort Textnachricht, die der Agent sendet.
App Insights-Ergebnis Generierende Antwortergebnisse aus Azure Application Insights (wenn "Mit Azure Application Insights bereichern " aktiviert ist).
Ausgelöste Themen-ID Eindeutige Kennung des Chatbot-Unterkomponentendatensatzes für das ausgelöste Thema in Dataverse (wenn Anreichern mit Unterhaltungstranskripten aktiviert ist).
Ausgelöstes Thema /Ereignis Name des ausgelösten Themas (wenn "Mit Unterhaltungstranskripten anreichern" aktiviert ist).
Wenn mehrere Themen übereinstimmen, IntentCandidates. Für Unterhaltungsverstärkung und Fallback, UnknownIntent.
Erkannte Absichts-Score Wenn die Absichts-Anerkennung erfolgt, wird der Score der obersten Absicht bewertet.
Aufgezeichnete Unterhaltungen Dateianhang des vollständigen Unterhaltungstranskripts im JSON-Format (wenn Enrich with Conversation Transcripts aktiviert ist und Vollständiges Transkript kopieren auf Ja gesetzt ist).
Empfohlene Aktionen Wenn verfügbar, JSON-Daten der vorgeschlagenen Aktionen, die der Agent zurückgibt und seiner Antwort zuordnet.
Attachments Wenn verfügbar, das JSON des Anhangsarrays, das der Agent zurückgibt und seiner Antwort zuordnet.
Zitate Für generierte Antworten, JSON-Array der Zitate, die der Agent verwendet, um die Antwort zu generieren (wenn Anreicherung mit Unterhaltungstranskripts aktiviert ist).

Überprüfen des Transkripts

Wenn Sie "Enrich With Conversation Transcripts" aktivieren und "Vollständige Transkript kopieren " auf "Ja" festlegen, enthält das Testergebnis das vollständige Transkript. Wenn Sie ein Testergebnis analysieren, wechseln Sie zur Registerkarte "Transkript " für eine detaillierte Transkriptansicht im JSON-Format mit einer zugehörigen Visualisierung.

Screenshot der Transkriptanalyseschnittstelle eines Agent-Testergebnisses.

Analyse von Multi-Turn-Testergebnissen

In der Ergebnisansicht werden Multi-Turn-Tests zusammen mit anderen Testtypen angezeigt. Das Gesamtergebnis (Erfolg oder Fehlgeschlagen) wird in der Spalte "Ergebnis" angezeigt. Wählen Sie den Wert „Unterhaltungs-ID“ aus, um Details zum mehrstufigen Test und eine Liste der untergeordneten Tests anzuzeigen, die den Test ausmachen.

Screenshot der Detailansicht der Multiturn-Testergebnisse eines Agent-Testergebnisses.

In der Detailansicht der Multiturn-Testergebnisse können Sie die Ergebnisse einzelner untergeordneter Tests einsehen und näher auf ihre Details eingehen. Das Ergebnis eines mehrstufigen Tests hängt von den Ergebnissen seiner untergeordneten Tests ab, die als kritisch gekennzeichnet sind. Nicht-kritische untergeordnete Tests können fehlschlagen, und der mehrstufige Testfall wird mit dem nächsten Testfall fortgesetzt. Wenn einer der kritischen Abschlusstests fehlschlägt, wird die Testausführung für diesen Mehrfachdurchlauf beendet, und der Test wird als fehlgeschlagen gekennzeichnet. Wenn alle kritischen Teiltests erfolgreich abgeschlossen werden, ist das Ergebnis des mehrstufigen Tests erfolgreich.

Multi-Turn-Testfälle können nicht-kritische Tests enthalten, da sie dem generativen Orchestrator Informationen bereitstellen. Die genaue Antwort auf den Testfall spielt keine Rolle, nur die folgenden kritischen Tests.

Der Mehrfachdurchlauf-Test (und das Mehrfachdurchlauf-Testergebnis) kann jeden der regulären Testtypen umfassen: Antwortübereinstimmung, Anhänge, Themenübereinstimmung und generative Antworten.

Wo Sie Hilfe erhalten

Wenn Probleme auftreten, lesen Sie die Anleitung zur Problembehandlung , oder lösen Sie eine Supportanfrage auf GitHub aus.