Freigeben über


Wählen Sie Bewertungsmethoden

[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]

In Copilot Studio können Sie eine Testreihe von Testfällen erstellen, um die Leistung Ihrer Agenten zu bewerten. Mithilfe von Testfällen können Sie reale Szenarien für Ihren Agenten simulieren, sodass Sie die Genauigkeit, Relevanz und Qualität der Antworten auf die Fragen messen können, die der Agent basierend auf den zugänglichen Informationen erhält. Mit den Ergebnissen aus dem Testset können Sie das Verhalten Ihres Maklers optimieren und bestätigen, dass Ihr Makler Ihre Geschäfts- und Qualitätsanforderungen erfüllt.

Von Bedeutung

Dieser Artikel enthält die Vorschaudokumentation von Microsoft Copilot Studio und kann geändert werden.

Vorschaufeatures sind nicht für die Produktionsverwendung vorgesehen und verfügen möglicherweise über eingeschränkte Funktionen. Diese Features sind vor einer offiziellen Version verfügbar, damit Sie frühzeitig Zugriff erhalten und Feedback geben können.

Wenn Sie einen produktionsfähigen Agent erstellen, lesen Sie die Übersicht über Microsoft Copilot Studio.

Testmethoden

Beim Erstellen von Testsätzen können Sie verschiedene Testmethoden wählen, um die Antworten Ihres Agenten zu bewerten: Textübereinstimmung, Ähnlichkeit und Qualität. Jede Testmethode hat ihre eigenen Stärken und eignet sich für verschiedene Arten von Auswertungen.

Testmethoden für Textübereinstimmung

Testmethoden für Textvergleiche vergleichen die Antworten des Agents mit erwarteten Antworten, die Sie im Testsatz definieren. Es gibt zwei Übereinstimmungstests:

Genaue Übereinstimmung überprüft, ob die Antwort des Agents exakt der erwarteten Antwort im Test entspricht: Zeichen für Zeichen, Wort für Wort. Wenn es gleich ist, wird es übergeben. Wenn etwas anders ist, schlägt es fehl. Genaue Übereinstimmung ist nützlich für kurze, präzise Antworten wie Zahlen, Codes oder feste Ausdrücke. Es passt nicht zu Antworten, die Personen auf mehrere richtige Weise ausdrücken können.

Teilübereinstimmung prüft, ob die Antwort des Agenten einige der Wörter oder Phrasen aus der von Ihnen definierten erwarteten Antwort enthält. Wenn dies der Fall ist, wird sie übergeben. Wenn dies nicht der Fehler ist, schlägt sie fehl. Partielle Übereinstimmung ist nützlich, wenn eine Antwort auf unterschiedliche richtige Weise formuliert werden kann, aber wichtige Begriffe oder Ideen müssen immer noch in die Antwort einbezogen werden.

Ähnlichkeitstestmethoden

Die Ähnlichkeitstestmethode vergleicht die Ähnlichkeit der Antworten des Agents mit den erwarteten Antworten, die in Ihrem Testsatz definiert sind. Es ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.

Es verwendet ein Kosinus-Ähnlichkeitsmaß, um zu beurteilen, wie ähnlich die Antwort des Agenten dem Wortlaut und der Bedeutung der erwarteten Antwort ist und eine Bewertung bestimmt. Die Punktzahl liegt zwischen 0 und 1, wobei 1 die Antwort genau übereinstimmt und 0 darauf hinweist, dass dies nicht der Punkt ist. Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt.

Qualitätsprüfungsmethoden

Qualitätsprüfungsmethoden helfen Ihnen bei der Entscheidung, ob die Antworten Ihres Agents Ihren Standards entsprechen. Durch diesen Ansatz wird sichergestellt, dass die Ergebnisse zuverlässig und einfach zu erklären sind.

Diese Methoden verwenden ein großes Sprachmodell (LLM), um zu beurteilen, wie effektiv ein Agent Benutzerfragen beantwortet. Sie sind besonders hilfreich, wenn keine genaue Antwort erwartet wird und eine flexible und skalierbare Möglichkeit zum Auswerten von Antworten basierend auf den abgerufenen Dokumenten und dem Unterhaltungsfluss bietet.

Zu den Qualitätsprüfungsmethoden gehören zwei Testmethoden:

Allgemeine Qualität wertet die Antworten des Agent aus. Es verwendet diese Schlüsselkriterien und wendet eine konsistente Eingabe an, um die Bewertung zu steuern:

  • Relevanz: Inwieweit die Antwort des Agents die Frage behandelt. Bleibt beispielsweise die Antwort des Agenten auf dem Thema und beantwortet die Frage direkt?

  • Fundierung: Inwieweit die Reaktion des Agents auf dem bereitgestellten Kontext basiert. Verweist beispielsweise der Antwortverweis des Agents auf die im Kontext angegebenen Informationen oder stützt er darauf ab, anstatt nicht zusammenhängende oder nicht unterstützte Informationen einzuführen?

  • Vollständigkeit: Inwieweit die Antwort des Agents alle erforderlichen Informationen bereitstellt. Deckt die Reaktion des Agents beispielsweise alle Aspekte der Frage ab und liefert ausreichende Details?

  • Enthaltung: Gibt an, ob der Agent versucht hat, die Frage zu beantworten.

Um als qualitativ hochwertig zu gelten, muss eine Antwort all diese wichtigen Kriterien erfüllen. Wenn ein Kriterium nicht erfüllt ist, wird die Antwort zur Verbesserung markiert. Diese Bewertungsmethode stellt sicher, dass nur Antworten, die sowohl vollständig als auch gut unterstützt werden, Topmarkierungen erhalten. Im Gegensatz dazu erhalten Antworten, die unvollständig sind oder keine unterstützenden Nachweise enthalten, niedrigere Bewertungen.

Vergleich der Bedeutung wertet aus, wie gut die Antwort des Agents die beabsichtigte Bedeutung der erwarteten Antwort widerspiegelt. Anstatt sich auf die genaue Formulierung zu konzentrieren, verwendet es die Ähnlichkeit der Absicht, das heißt, es vergleicht die Ideen und Bedeutungen hinter den Worten, um zu beurteilen, wie eng die Antwort mit den Erwartungen übereinstimmt.

Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt. Die Standard-Bestehensquote liegt bei 50. Die Testmethode für den Bedeutungsvergleich ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.

Schwellenwerte und Passraten

Der Erfolg eines Testfalls hängt von der ausgewählten Testmethode und dem Schwellenwert ab, den Sie für das Bestehen von Ergebnissen festlegen.

Jede Testmethode, mit Ausnahme exakter Übereinstimmung, erzeugt eine numerische Bewertung basierend auf einer Reihe von Bewertungskriterien, die widerspiegelt, wie gut die Antwort des Agent diese Kriterien erfüllt. Der Schwellenwert ist das Grenz-Score, das Bestehen von Nichtbestehen trennt. Sie können die übergebenen Bewertungen für Ähnlichkeit festlegen und Bedeutungstestfälle vergleichen.

Genaue Übereinstimmung ist eine strenge Testmethode, die keine numerische Bewertung erzeugt. die Antwort muss exakt übereinstimmen, um zu bestehen. Indem Sie den Schwellenwert für einen Testfall auswählen, entscheiden Sie, wie streng oder nachsichtig die Auswertung ist. Jede Testmethode wertet die Antwort des Agents anders aus, daher ist es wichtig, die Methode auszuwählen, die Ihren Auswertungskriterien am besten entspricht.