Planen und erstellen Sie einen Leistungstest für konversationelle Agenten

Gesprächsagenten, die mit Copilot Studio entwickelt wurden, laufen auf einer Plattform, die automatisch skaliert, um die steigende Nachfrage und die Auslastung zu unterstützen. Conversational Agents verwenden jedoch oft benutzerdefinierte Logik oder Aufrufe zu Backend-APIs, was Latenz verursacht, weil die eigene Logik ineffizient ist oder die zugrundeliegenden APIs und Backend-Systeme nicht gut skalieren.

Leistungstests bewerten die Leistung und Stabilität eines Agenten unter unterschiedlichen Belastungsmustern. Sie identifiziert potenzielle Probleme mit wachsender Nutzerbasis und stellt sicher, dass der Agent funktionsfähig und reaktionsfähig bleibt. Wenn du deinen Conversational Agent nicht unter Last testest, kann er während der Entwicklung und Tests gut funktionieren, aber bei echtem Nutzerverkehr scheitern.

Bevor Sie die technischen Aspekte der Leistungstests angehen, definieren Sie Akzeptanzkriterien, die das gewünschte Nutzererlebnis erfassen, und identifizieren Sie konversationelle Anwendungsfälle, die unterschiedliche Lastmuster erzeugen. Dieser Artikel behandelt kurz die Planungsphase der Leistungstests und gibt Hinweise zu den technischen Besonderheiten der Lastgenerierung für Ihre Gesprächsagenten.

Plane deinen Leistungstest

Ein Leistungstestplan sollte ein definiertes Ziel und spezifische Akzeptanzkriterien haben. Beispielsweise messen einige Tests die Leistung eines Systems unter Standardlast, während andere Tests extremere Belastungen erzeugen, die absichtlich dazu führen, dass ein System nicht mehr ansprechbar wird. Bei der Messung der Leistung von konversationellen Agenten, die mit Copilot Studio gebaut wurden, entwerfen Sie Tests, um entweder die Basisleistung des Agenten oder die erwartete hohe Last zu messen, konfigurieren jedoch keine Tests, um übermäßigen Stress zu erzeugen.

Warnung

Eine erzeugte Belastung, die das erwartete Nutzerverhalten übersteigt, kann zu einer Überschreitung des Nachrichtenkonsums und unerwünschter Drosselung der Umgebungen führen. Um Drosselung und Überverbrauch zu vermeiden, achten Sie darauf:

Deine Tests ahmen realistisches Nutzerverhalten nach.
Ihr Mieter und Ihre Umgebung haben ausreichend Lizenzen und Abrechnungsrichtlinien zugewiesen.

Verstehen Sie das Verhalten der Nutzer

Beginnen Sie Ihren Testplan, indem Sie analysieren, wie Nutzer sich in verschiedenen konversationellen Anwendungsfällen verhalten sollen. Aus Lasttest-Sicht kann das Nutzerverhalten je nach Anwendungsfall variieren, was die Nutzer sagen oder fragen (zum Beispiel "Ich möchte einen Flug buchen" oder "Wie ist Ihre Rückgaberegelung?"), die Anzahl der Nutzer, die einen bestimmten Anwendungsfall antreibt, und die Engagement-Muster der Nutzer (zum Beispiel, dass Nutzer sich mittags alle auf einmal verbinden, im Gegensatz zu einem allmählichen Aufbau über den Tag hinsichtlich).

Die folgende Tabelle beschreibt das erwartete Nutzerverhalten eines Bank-Gesprächsagenten.

Anwendungsfall	Häufige Nutzeräußerungen	Gefechtsmuster
Darlehensantrag	Ich brauche einen neuen Kredit . Ich möchte einen neuen Kredit beantragen...	Im Durchschnitt 1.000 gleichzeitige Nutzer während des Tages
Bilanzuntersuchung	Wie hoch ist mein Kontostand? Zeig meinen Kontostand ...	10.000 gleichzeitige Nutzer, alle verbinden sich gegen Mittag
Weitere Anwendungsfälle	…	…

Erstellen eines Testplans

Nachdem Sie das Nutzerverhalten in Bezug auf Anwendungsfälle und Engagement-Muster definiert haben, denken Sie über die Details Ihres Leistungstestplans nach. Mindestens sollte ein Leistungstestplan für einen Gesprächsagenten ein Ziel, Testszenarien, Schlüsselindikatoren, detaillierte Testdaten und Erfolgskriterien festlegen.

Wenn Ihr Team bereits Konversationsszenarien für Evaluationen definiert hat, entweder durch die Erstellung von Testfällen im Produkt oder durch die Nutzung des Copilot Studio Kits, können Sie diese Szenarien wiederverwenden, um Ihren Testplan zu erstellen.

Der folgende Beispiel-Testplan ist für einen Bank-Conversational-Agenten. Der Plan verwendet die zuvor identifizierten konversationellen Anwendungsfälle, um ein Baseline-Testszenario und ein Lasttestszenario zu definieren. Das Testen der Basislinie bewertet die normale Leistung, identifiziert Probleme während der regulären Nutzung, während mehr Auslastung zeigen kann, wie das System mit Spitzennutzeraktivität umgeht.

`Section`	Einzelheiten
Objective	Bewerten Sie die Leistung des Bankgesprächsagenten unter Basis- und Lastbedingungen.
Geltungsbereich	Im Umfang: Basis- und Lasttests. Außerhalb des Zuständigkeitsbereichs: Stresstests.
Wichtigste Erfolgskennzahlen (Key Performance Indicators, KPIs)	Reaktionszeit: Zeit, um auf Nutzeranfragen zu antworten. Fehlerquote: Prozentsatz der fehlgeschlagenen Antworten.
Testszenarien	Baseline-Tests Darlehensantrag Benutzerzahl: 1.000 gleichzeitige Nutzer Dauer: 15 Minuten. Auslastungstests Darlehensantrag Benutzerzahl: 1.000 gleichzeitige Nutzer Dauer: 15 Minuten. Bilanzuntersuchung Benutzerzahl: 10.000 gleichzeitige Nutzer Duration (Dauer): 5 Minuten
Testdaten	Darlehensantrags-Mehrfach-Äußerungen Gleichgewichtsuntersuchung mehrfache Äußerungen
Tools	Leistungstest-Werkzeug: Apache JMeter Berichterstattung: JMeter-integrierte Berichte
Erfolgskriterien	Baseline: 95% Antworten unter 2 Sekunden; Fehlerquote <0,5% Laden: 90% Antworten unter 3 Sekunden; Fehlerquote <1%

Arbeiten Sie mit technischen und geschäftlichen Stakeholdern zusammen, um einen Testplan zu entwickeln, der den Bedürfnissen Ihrer Organisation entspricht. Stimmen Sie den wichtigsten Parametern im Beispiel zu. Erfahren Sie, wie Sie Werkzeuge wie Apache JMeter verwenden, um Testskripte in Performance-Testreferenzbeispielen und Richtlinien zu erstellen.

Simuliere Gespräche mit mehreren Runden

Die im Plan angegebenen Testdaten implizieren, dass der geplante Leistungstest mehrere Rundengespräche anreibt. Mehrrundige Gespräche sind eine Reihe von Hin- und Her-Nachrichten, die zwischen den simulierten Nutzern und dem Konversationsagent gesendet werden. Leistungstests sollten mehrere Runden-Gespräche antreiben, sodass die erzeugte Last dem echten Nutzerverhalten ähnelt. Außerdem werden einige langlaufende Aktionen oder API-Aufrufe nur dann aktiviert, wenn Nutzer eine bestimmte Reihe von Entscheidungen treffen oder ein bestimmtes Muster von Nachrichten innerhalb einer Konversation senden.

Im folgenden Beispiel wird die Backend-API der Bank erst aufgerufen, nachdem der Nutzer ein Sparkonto ausgewählt hat. Die Antwortzeit für die erste Nachricht ist kürzer als eine zweite, da nur die Absichtserkennungs-Engine des Agenten beteiligt ist. Die letzte Nachricht wartet auf eine Antwort von einer Backend-API, was zusätzliche Latenz verursacht. Ohne die Simulation eines Mehrrunden-Gesprächs wären keine Performance-Probleme aufgetreten.

Screenshot eines Testskripts, das eine Mehrrunden-Konversation simuliert und Benutzereingaben und Agentenantworten mit unterschiedlichen Reaktionszeiten darstellt.

Die Simulation von Mehrrundengesprächen erfordert die Planung sowohl bei der Vorbereitung der Testdaten als auch beim Erstellen von Testskripten. Fügen Sie eine Reihe von Benutzeräußerungen in Ihre Testdaten ein, die vollständige Konversationsflüsse auslösen, wie im Beispiel gezeigt. Stelle sicher, dass deine Testskripte mehrere Äußerungen in einem einzigen Gespräch senden.

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-15