[本文是预发行文档,可能会有所更改。]
通过使用测试集的结果,你可以优化座席的行为,验证其符合业务和质量要求。 你还可以多次运行测试集,在改进代理时对比结果。
考试结果可在Copilot Studio获取89天。 为了保存测试结果以保存更长时间,请 导出 为CSV文件。
重要
本文包含 Microsoft Copilot Studio 预览文档,并可能会更改。
预览功能不适用于生产用途,并且可能具有受限功能。 这些功能在正式发布之前可用,以便你可以提前访问并提供 反馈。
如果要生成生产就绪的代理,请参阅 Microsoft Copilot Studio 概述。
运行测试集
创建测试集后,你可以运行或重跑,以比较时间和迭代 结果 。
重要
使用用户认证的代理评估需要通过 Microsoft Copilot Studio 连接器进行访问。 如果你的管理员关闭了这个连接,你就无法通过评估工具运行测试。 更多信息请参见 Copilot Studio 连接器和数据组。
访问你经纪人的 评价 页面。
通过执行以下作之一来运行测试:
在 “测试集 ”列表中查找测试集,然后选择“更多”图标(...) >评估测试集。
将鼠标悬停在使用你想使用的测试结果上,然后选择“更多”图标(...) >重新评估测试集。
如果测试集的用户配置文件连接损坏,或者测试集没有用户配置文件,就会出现 “管理连接 ”对话框。 测试时不必使用用户配置文件。 不过,如果你使用配置文件,所有连接都必须正常工作。 有关修复连接的信息,请参见 “管理用户配置文件和连接”。
评估可能需要几分钟时间。 当测试结果准备好查看时,Copilot Studio 会弹出警报。
深入测试结果
每次使用测试集运行评估时,Copilot Studio:
使用连接的用户帐户模拟与智能体的对话,将测试案例中的每个问题发送到智能体。
收集智能体的响应。
衡量和分析每次响应的成功情况。 每个测试案例会根据测试案例的条件收到通过或失败。
根据测试集的“通过/率”分配通过率分数。
您可以在代理的评估页面“近期结果”栏目中查看每次测试的通过率。 要查看更多测试集运行,选择查看全部。
查看详细的测试用例分析
打开测试结果时,你可以看到测试运行的详细信息、测试中使用的查询列表、客服的响应以及 通过 或 不通过 分数。
在列表中选择一个测试用例,查看每个响应的详细评估。
评估内容包括预期和实际反应、测试结果背后的理由,以及代理人用来应对的知识、主题和工具。
选择一个引用的知识或主题来打开它。
比较测试结果
你想测试一个版本的代理,观察修改前后性能的变化。 您可以使用“ 比较” 工具比较同一测试集的两次运行。
要看到对比,你需要至少运行同一组测试集两次。
在你的代理 评估页面, 打开你想用作比较基础的 测试运行 ,在 “近期测试结果”下。
选择“ 与他人比较 ”下拉菜单,然后选择你想与当前开放测试结果进行比较的时间和日期。
在 测试案例 列表中,箭头显示哪些测试用例结果通过从失败变为通过
而提升,或通过从通过变为失败
而下降。
选择一个测试用例以查看更多细节。 在 评估总结 面板中,你可以看到测试成绩的直接对比,当前测试运行的结果显示在顶部。
导出测试结果
你可以导出测试结果成CSV文件。 文件列出了每个测试用例的问题、预期响应(如适用)、测试方法、及格分数(如适用)、代理的回答、测试结果以及分析。
在你经纪人的 评估 页面上。
选择你想导出的结果。
在 评估摘要 面板中,选择“更多”图标(...) >导出测试结果。
测试结果会以 你的测试套装名称 下载,.csv。