[本文是预发行文档,可能会有所更改。]
在 Copilot Studio 中,你可以 创建 一组测试用例来评估代理的性能。 测试用例允许你模拟代理的实际方案,以便根据代理可以访问的信息来衡量代理所询问问题的准确率、相关性和质量。 通过使用 测试集的结果,你可以优化座席的行为,验证其符合业务和质量要求。
重要
本文包含 Microsoft Copilot Studio 预览文档,并可能会更改。
预览功能不适用于生产用途,并且可能具有受限功能。 这些功能在正式发布之前可用,以便你可以提前访问并提供 反馈。
如果要生成生产就绪的代理,请参阅 Microsoft Copilot Studio 概述。
测试方法
在创建测试集时,你可以选择不同的测试方法来评估代理的响应: 文本匹配度、 相似度和 质量。 每个测试方法都有自己的优势,适合不同类型的评估。
文本匹配测试方法
文本匹配测试方法将代理的响应与在测试集中定义的预期响应进行比较。 有两个匹配测试:
完全匹配 检查代理的答案是否与测试中预期的响应完全匹配:字符的字符、单词的单词。 如果相同,它将通过。 如果有任何不同之处,失败。 精确匹配适用于简短的精确答案,如数字、代码或固定短语。 不适合人们可以多种正确方式措辞的答案。
部分匹配 检查代理的回答是否包含你定义的预期反应中的某些词语或短语。 如果匹配,通过。 如果没有,它将失败。 如果答案可以采用不同的正确方式措辞,但关键词或想法仍需包含在响应中时,部分匹配非常有用。
相似性测试方法
相似性测试方法将代理的响应与测试集中定义的预期响应的相似性进行比较。 当答案可以采用不同的正确方式措辞,但仍需要传达整体含义或意图时,此方法很有用。
它使用余弦相似性指标来评估代理的答案与预期响应的措辞和含义的相似程度,并确定分数。 分数范围为 0 到 1,1 表示答案非常匹配,0 表示答案不匹配。 可以设置一个通过分数阈值,来确定答案的通过分数。
质量测试方法
质量测试方法可帮助您确定智能体的响应是否符合标准。 此方法可确保结果既可靠又易于解释。
这些方法使用大型语言模型(LLM)来评估代理如何有效地回答用户问题。 当没有确切的预期答案时,此方法特别有用,可以提供一种灵活且可缩放的方式来基于检索的文档和对话流评估响应。
质量测试方法包括两种测试方法:
一般质量评估智能体响应。 它使用这些关键标准,并应用一致的提示来指导评分:
相关性:智能体的响应解决问题的程度。 例如,代理的响应是否保持在主题上,并且直接回答问题?
有根性:智能体的响应基于提供的上下文的程度。 例如,智能体的响应是否引用或依赖于上下文中提供的信息,而不是引入不相关的或不受支持的信息?
完整性:智能体的响应提供所有必要的信息的程度。 例如,智能体的响应是否覆盖问题的各个方面并提供足够的详细信息?
弃权:智能体是否尝试回答问题。
要被视为高质量,回答必须满足所有这些关键标准。 如果某项标准未达标,该回应将被标记为改进对象。 此评分方法可确保只有完整且高度受支持的响应会收到最高分数。 相比之下,不完整或缺乏支持证据的答案将获得较低的分数。
比较含义评估智能体的答案对预期响应的预期含义的反映情况。 它不关注具体措辞,而是通过意图相似性,也就是比较词语背后的思想和含义,来判断反应与预期的契合程度。
可以设置一个通过分数阈值,来确定答案的通过分数。 默认及格分数是50分。 当答案可以采用不同的正确方式措辞,但仍需要传达整体含义或意图时,比较意义测试方法很有用。
阈值和通过率
测试用例的成功取决于所选的测试方法以及为通过分数设置的阈值。
每个测试方法(完全匹配除外)基于一组评估条件生成数值分数,条件反映智能体的答案满足该条件的程度。 阈值是区分通过与失败的截止分数。 可以为相似性和比较含义测试案例设置通过分数。
完全匹配是一种不生成数值分数的严格测试方法;答案必须完全匹配才能通过。 通过选择测试案例的阈值,可以决定评估的严格程度或宽松程度。 每个测试方法以不同的方式评估智能体的答案,因此选择最符合评估条件的答案非常重要。