Partager via


Améliorer les tests d’agent avec Copilot Studio Kit

Power CAT Copilot Studio Kit est une application conviviale qui vous permet de vérifier les réponses de l’agent. Il inclut également des fonctionnalités natives telles que l’exportation et l’importation Excel pour la création en bloc et les mises à jour.

Configurer, exécuter et analyser

Configurez et exécutez des tests sur les API Copilot Studio (API Direct Line) pour évaluer les réponses de l’agent par rapport aux résultats attendus.

Pour enrichir les résultats, récupérez des points de données supplémentaires à partir d’Azure Application Insights et de Dataverse en analysant les enregistrements de transcription de conversation (par exemple, le nom de rubrique déclenché exactement et les scores de reconnaissance d’intention).

Pour les réponses générées par l’IA, qui sont non déterministes par nature, utilisez des invites pour comparer la réponse générée avec un exemple de réponse ou des instructions de validation.

Diagramme montrant les composants Azure et Power Platform impliqués dans le test et l’analyse des API Direct Line de Copilot Studio, notamment Azure Application Insights, AI Builder et Dataverse.

Types de test

L’outil prend en charge ces types de tests :

  • Correspondance de réponses
  • Pièces jointes telles que des cartes adaptatives
  • Correspondance de thème (nécessite Dataverse)
  • Réponses génératives (nécessite AI Builder pour l’analyse de la réponse et Application Insights pour plus d’informations sur la raison pour laquelle une réponse n’a pas été générée)
  • Le type de test multitour est un type de test spécial. Il se compose d’un ensemble de cas de test de types réguliers qui s’exécutent dans un ordre spécifié dans le même contexte de conversation. Utilisez des tests multitours pour tester des scénarios de bout en bout et pour tester des agents personnalisés avec une orchestration générative.
  • La validation de plan permet aux créateurs de valider que leurs agents personnalisés qui utilisent l’orchestration générative incluent les outils attendus. Au lieu d’évaluer ce que dit l’agent, ce type de test vérifie que le plan dynamique de l’agent inclut les outils attendus (outils, actions et agents connectés) à un seuil prédéfini.

En savoir plus sur les types de tests dans Configurer des tests dans Copilot Studio Kit.

Capture d’écran des détails des résultats de l’exécution de test, y compris un graphique montrant le taux de réussite et la latence pour toutes les exécutions de test.

Étape suivante