Choisir des méthodes d’évaluation

[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]

Dans Copilot Studio, vous pouvez créer un ensemble de cas de test pour évaluer la performance de vos agents. Les cas de test vous permettent de simuler des scénarios réels pour votre agent, afin de mesurer la précision, la pertinence et la qualité des réponses aux questions posées par l’agent, en fonction des informations auxquelles l’agent peut accéder. En utilisant les résultats du test set, vous pouvez optimiser le comportement de votre agent et valider qu’il répond à vos exigences commerciales et de qualité.

Important

Cet article contient la documentation sur Microsoft Copilot Studio en version préliminaire et peut faire l’objet de modifications.

Les fonctionnalités en préversion ne sont pas destinées à une utilisation en production et peuvent avoir des fonctionnalités restreintes. Ces fonctionnalités sont disponibles avant une publication officielle afin que vous puissiez y accéder en avant-première et fournir des commentaires.

Si vous créez un assistant prêt pour la production, consultez Vue d’ensemble de Microsoft Copilot Studio.

Méthodes de test

Lors de la création de jeux de test, vous pouvez choisir parmi différentes méthodes de test pour évaluer les réponses de votre agent : correspondance de texte, similarité et qualité. Chaque méthode de test a ses propres points forts et est adaptée à différents types d’évaluations.

Méthodes de test de correspondance de texte

Les méthodes de test de correspondance de texte comparent les réponses de l’agent aux réponses attendues que vous définissez dans le jeu de tests. Il existe deux tests de correspondance :

La correspondance exacte vérifie si la réponse de l’agent correspond exactement à la réponse attendue dans le test : caractère pour caractère, mot pour mot. Si c’est le même, il passe. Si quelque chose diffère, il échoue. La correspondance exacte est utile pour des réponses courtes et précises telles que des nombres, des codes ou des expressions toutes faites. Elle ne convient pas aux réponses qu’il est possible de formuler de plusieurs manières correctes.

La correspondance partielle vérifie si la réponse de l’agent contient certains des mots ou expressions de la réponse attendue que vous définissez. Si c’est le cas, il réussit. Si ce n’est pas le cas, elle échoue. La correspondance partielle est utile lorsqu’une réponse peut être décrite de différentes manières correctes, mais les termes ou idées clés doivent toujours être inclus dans la réponse.

Méthodes de test de similarité

La méthode de test de similarité compare la similarité des réponses de l’agent aux réponses attendues définies dans votre jeu de tests. Il est utile lorsqu’une réponse peut être formulée de plusieurs manières correctes, mais que le sens ou l’intention générale doit tout de même être préservé(e).

Il utilise une métrique de similarité cosinus pour évaluer la façon dont la réponse de l’agent est similaire à la formulation et à la signification de la réponse attendue et détermine un score. Le score varie entre 0 et 1, 1 indiquant que la réponse correspond étroitement et 0 qu’elle ne correspond pas. Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte.

Méthodes de test de qualité

Les méthodes de test de qualité vous aident à déterminer si les réponses de votre assistant répondent à vos normes. Cette approche garantit que les résultats sont à la fois fiables et faciles à expliquer.

Ces méthodes utilisent un modèle de langage volumineux (LLM) pour évaluer la façon dont un agent répond efficacement aux questions utilisateur. Elles sont particulièrement utiles lorsqu’il n’y a pas de réponse exacte attendue, offrant un moyen flexible et évolutif d’évaluer les réponses en fonction des documents récupérés et du flux de conversation.

Les méthodes de test de qualité incluent deux méthodes de test :

La qualité générale évalue les réponses de l’assistant. Il utilise ces critères clés et applique une consigne cohérente pour guider la notation :

Pertinence : dans quelle mesure la réponse de l’assistant répond à la question. Par exemple, la réponse de l’agent reste-t-elle sur le sujet et répond directement à la question ?
Fondement : dans quelle mesure la réponse de l’assistant est basée sur le contexte fourni. Par exemple, la réponse de l’assistant se base-t-elle sur les informations fournies dans le contexte ou y fait-elle référence, plutôt que d’introduire des éléments sans rapport ou non étayés ?
Exhaustivité : dans quelle mesure la réponse de l’assistant fournit toutes les informations nécessaires. Par exemple, la réponse de l’assistant aborde-t-elle tous les aspects de la question et fournit-elle suffisamment de détails ?
Abstention : indique si l’assistant a tenté de répondre à la question ou non.

Pour être considérée comme de haute qualité, une réponse doit répondre à tous ces critères clés. Si un critère n’est pas rempli, la réponse est signalée pour amélioration. Cette méthode d’évaluation garantit que seules les réponses à la fois complètes et bien étayées obtiennent la note maximale. En revanche, les réponses incomplètes ou qui manquent de preuves de soutien reçoivent des scores inférieurs.

Compare le sens : évalue dans quelle mesure la réponse de l’assistant reflète le sens prévu de la réponse attendue. Au lieu de se concentrer sur la formulation exacte, il utilise la similarité d’intention, c’est-à-dire qu’il compare les idées et le sens derrière les mots, pour juger à quel point la réponse correspond à ce qui était attendu.

Vous pouvez définir un seuil de réussite afin de déterminer ce qui constitue un score suffisant pour qu’une réponse soit considérée comme correcte. Le score de réussite par défaut est de 50. La méthode de test de comparaison du sens est utile lorsqu’une réponse peut être formulée de plusieurs manières correctes, mais que le sens ou l’intention générale doit tout de même être préservé(e).

Seuils et taux de réussite

La réussite d’un cas de test dépend de la méthode de test que vous sélectionnez et du seuil que vous définissez pour passer des scores.

Chaque méthode de test, à l’exception de la correspondance exacte, produit un score numérique basé sur un ensemble de critères d’évaluation qui reflète la façon dont la réponse de l’assistant répond à ces critères. Le seuil correspond à la note limite qui sépare la réussite de l’échec. Vous pouvez définir les scores de réussite pour les tests de similarité et de comparaison du sens.

La correspondance exacte est une méthode de test stricte qui ne génère pas de score numérique ; la réponse doit correspondre exactement pour être considérée comme réussie. En choisissant le seuil d’un incident de test, vous déterminez le niveau de rigueur ou de tolérance de l’évaluation. Chaque méthode de test évalue la réponse de l’assistant différemment. Il est donc important de choisir celle qui correspond le mieux à vos critères d’évaluation.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-11-19