运行测试并查看结果

[本文是预发行文档,可能会有所更改。]

通过使用测试集的结果,你可以优化座席的行为,验证其符合业务和质量要求。 你还可以多次运行测试集,在改进代理时对比结果。

考试结果可在Copilot Studio获取89天。 为了保存测试结果以保存更长时间,请 导出 为CSV文件。

重要

本文包含 Microsoft Copilot Studio 预览文档,并可能会更改。

预览功能不适用于生产用途,并且可能具有受限功能。 这些功能在正式发布之前可用,以便你可以提前访问并提供 反馈

如果要生成生产就绪的代理,请参阅 Microsoft Copilot Studio 概述

运行测试集

创建测试集后,你可以运行或重跑,以比较时间和迭代 结果

重要

使用用户认证的代理评估需要通过 Microsoft Copilot Studio 连接器进行访问。 如果你的管理员关闭了这个连接,你就无法通过评估工具运行测试。 更多信息请参见 Copilot Studio 连接器和数据组

  1. 访问你经纪人的 评价 页面。

  2. 通过执行以下作之一来运行测试:

  • 在创建编辑测试集结束时,选择“评估”。

  • “测试集 ”列表中查找测试集,然后选择“更多”图标(...) >评估测试集

  • 将鼠标悬停在使用你想使用的测试结果上,然后选择“更多”图标(...) >重新评估测试集

如果测试集的用户配置文件连接损坏,或者测试集没有用户配置文件,就会出现 “管理连接 ”对话框。 测试时不必使用用户配置文件。 不过,如果你使用配置文件,所有连接都必须正常工作。 有关修复连接的信息,请参见 “管理用户配置文件和连接”。

显示将鼠标悬停在测试集或评估结果上时显示的更多菜单图标的屏幕截图。

评估可能需要几分钟时间。 当测试结果准备好查看时,Copilot Studio 会弹出警报。

深入测试结果

每次使用测试集运行评估时,Copilot Studio:

  1. 使用连接的用户帐户模拟与智能体的对话,将测试案例中的每个问题发送到智能体。

  2. 收集智能体的响应。

  3. 衡量和分析每次响应的成功情况。 每个测试案例会根据测试案例的条件收到通过失败

  4. 根据测试集的“通过/率”分配通过率分数。

您可以在代理的评估页面“近期结果”栏目中查看每次测试的通过率。 要查看更多测试集运行,选择查看全部

显示先前评估列表的屏幕截图。

查看详细的测试用例分析

打开测试结果时,你可以看到测试运行的详细信息、测试中使用的查询列表、客服的响应以及 通过不通过 分数。

在列表中选择一个测试用例,查看每个响应的详细评估。

显示已完成评估中的测试案例列表的屏幕截图。

评估内容包括预期和实际反应、测试结果背后的理由,以及代理人用来应对的知识、主题和工具。

选择一个引用的知识或主题来打开它。

显示测试案例的详细结果和评估的屏幕截图。

比较测试结果

你想测试一个版本的代理,观察修改前后性能的变化。 您可以使用“ 比较” 工具比较同一测试集的两次运行。

要看到对比,你需要至少运行同一组测试集两次。

  1. 在你的代理 评估页面, 打开你想用作比较基础的 测试运行 ,在 “近期测试结果”下。

  2. 选择“ 与他人比较 ”下拉菜单,然后选择你想与当前开放测试结果进行比较的时间和日期。

截图显示“与对比”下拉菜单。

测试案例 列表中,箭头显示哪些测试用例结果通过从失败变为通过 而提升,或通过从通过变为失败 而下降。

选择一个测试用例以查看更多细节。 在 评估总结 面板中,你可以看到测试成绩的直接对比,当前测试运行的结果显示在顶部。

截图显示了两个测试集的结果对比。

导出测试结果

你可以导出测试结果成CSV文件。 文件列出了每个测试用例的问题、预期响应(如适用)、测试方法、及格分数(如适用)、代理的回答、测试结果以及分析。

  1. 在你经纪人的 评估 页面上。

  2. 选择你想导出的结果。

  3. 评估摘要 面板中,选择“更多”图标(...) >导出测试结果

测试结果会以 你的测试套装名称 下载,.csv。