编辑测试集

[本文是预发行文档,可能会有所更改。]

创建测试集的过程中或之后,你可以通过修改题目措辞、选择不同的测试方法,或根据需要调整预期答案来编辑测试用例。 可以选择多个测试案例,通过选中每个测试案例旁边的复选框来批量编辑它们。

可以选择三种测试方法(也称为分级器)来评估智能体响应:质量、相似性、文本匹配。 有关不同测试方法的详细信息,请参阅测试方法

重要

本文包含 Microsoft Copilot Studio 预览文档,并可能会更改。

预览功能不适用于生产用途,并且可能具有受限功能。 这些功能在正式发布之前可用,以便你可以提前访问并提供 反馈

如果要生成生产就绪的代理,请参阅 Microsoft Copilot Studio 概述

编辑测试集的详细信息

你可以更改测试集的基本细节以及它用于认证的账户。

  1. 在你代理人的 评估 页面,选择测试集。

  2. 在测试集中,选择要编辑的测试案例。

  3. 可选地,更改测试集的名称。

  4. 选择 “管理个人资料 ”以添加账户,或选择当前配置文件以 管理连接,或选择其他配置文件。 自动化测试使用所选测试账户的认证。 如果你的代理拥有需要特定认证的知识来源或工具,你可以选择合适的账户进行测试。

注释

当 Copilot Studio 生成测试用例或运行评估时,它会利用连接账户的认证凭证访问代理的知识源和工具。 生成的测试用例或结果可能包含连接账户可访问的敏感信息,这些信息对所有能访问测试集的制造商可见。

显示“管理个人资料”按钮的截图。

管理用户配置文件和连接

你可以通过用户账户的认证来运行测试集。 这种认证方法允许您的代理访问完成目标所需的知识源和工具。

你也可以用配置文件模拟特定的用户体验。 例如,主管的用户配置文件可以访问与实习生的用户配置文件不同的知识源,代理应返回不同的结果。

测试结果 显示使用了哪个用户配置文件。

注释

当 Copilot Studio 生成测试用例或运行评估时,它会利用连接账户的认证凭证访问代理的知识源和工具。 生成的测试用例或结果可能包含连接账户可访问的敏感信息,这些信息对所有能访问测试集的制造商可见。

使用用户认证的代理评估需要通过 Microsoft Copilot Studio 连接器进行访问。 如果你的管理员关闭了这个连接,你就无法通过评估工具运行测试。 更多信息请参见 Copilot Studio 连接器和数据组

在测试集中添加或更改用户配置文件:

  1. 打开一个测试集,然后选择 管理配置文件

显示“管理个人资料”按钮的截图。

  1. 选择 “用户 ”下拉菜单,然后:
  • 选择你想使用的用户账户,或者
  • 选择 添加账户,然后登录该账户。

展示如何选择用户账户的截图。

  1. 对于带有警告的连接,请选择连接。 将现有连接改为正常连接,选择 重新连接 尝试重建现有连接,或选择 创建新连接 尝试新连接。

对于新连接,输入请求的连接详情,然后选择 连接

  1. 当所有连接都正常时,选择 保存

编辑测试集内的测试用例

  1. 在你代理人的 评估 页面,选择测试集。

  2. 在测试集中,选择要编辑的测试案例。

显示测试案例列表的屏幕截图。

  1. 在右窗格中,通过编辑问题字段中的文本来更改问题的措辞。

显示问题文本字段的屏幕截图。

  1. 选择要使用的测试方法

显示测试方法选择的屏幕截图。

  • 质量

    • 选择一般质量来基于相关性、有根性和完整性来评估答案。

    • 选择比较含义可以根据答案捕获预期响应含义的程度来评估答案。 在通过分数下,可以为答案的通过分数设置阈值。

      预期响应框中,提供测试方法基于其评估智能体答案的响应。

  • 相似性:使用 Cosine 相似性指标来评估代理的答案与预期响应的措辞和含义的相似程度。 它确定 0 到 1 之间的分数,1 表示非常匹配,0 表示根本不匹配。 在通过分数下,可以为答案的通过分数设置阈值。

    预期响应框中,提供测试方法基于其评估智能体答案的响应。

  • 文本匹配

    • 选择完全匹配可以根据预期响应评估智能体的答案,其中通过分数意味着智能体的答案与定义的预期响应完全匹配。

      预期响应框中,提供测试方法基于其评估智能体答案的响应。

    • 选择部分匹配可以基于预期响应评估智能体的答案,其中通过分数意味着智能体的答案包含定义的预期响应中的一些字词或短语。

      预期响应框中,提供测试方法基于其评估智能体答案的短语或关键字。 若要添加多个关键字或短语,选择添加,选择框之间的运算符 andor,并提供关键字或短语。

      截图展示了如何添加关键词以部分匹配预期响应。

  1. 选择应用

  2. 完成更改后,选择 保存 以保存测试集,或选择 评估运行测试

向测试集添加更多测试用例

在创建或编辑测试集时,你可以添加更多测试用例。

  1. 在你代理人的 评估 页面,选择测试集。

  2. 生成或手动添加更多测试用例。

截图显示了“生成10个问题”和“手动添加案例”按钮,位于“审查您的测试案例”页面。

  1. 选择并 编辑任何新的测试用例 以添加细节。

删除测试用例或测试集

要删除测试用例,将鼠标悬停在某个测试用例上,然后选择删除按钮。

你也可以删除测试集:

  1. 在你的代理 分析页面, 为了测试集,选择“更多”图标(...) >删除