[本文为预发布文档,可能会发生变化。]
在 Copilot Studio 中,你可以 创建 一组测试用例来评估代理的性能。 测试用例允许你模拟代理的实际方案,以便根据代理可以访问的信息来衡量代理所询问问题的准确率、相关性和质量。 通过使用 测试集的结果,你可以优化座席的行为,验证其符合业务和质量要求。
重要
本文包含 Microsoft Copilot Studio 预览文档,并可能会更改。
预览功能不适用于生产用途,并且可能具有受限功能。 这些功能在正式发布之前可用,以便你可以提前访问并提供 反馈。
如果要生成生产就绪的代理,请参阅 Microsoft Copilot Studio 概述。
评估通过发送信息给你的代理人,记录回复,并将这些回复与预期回复或质量标准进行比较来实现。 更多消息作为测试用例,可以让你更好地了解代理如何处理各种用例。
你可以手动创建测试用例,通过电子表格导入,或利用AI根据你的代理设计和知识生成消息。 然后你可以选择如何衡量每个测试用例中代理响应质量的方式。 关于创建测试用例的更多信息,请参见 创建测试集。
重要
考试结果可在Copilot Studio获取89天。 为了保存测试结果以保存更长时间,请 导出 为CSV文件。
创建新的测试集
访问你经纪人的 评价 页面。
在新建测试集页中,选择要用于创建测试集的方法:
- 快速提问:让Copilot Studio根据你的座席描述、说明和能力自动创建测试用例。 该选项生成10个问题,用于进行小型快速评估或开始构建更大测试集。
- 完整的题目设置,让Copilot Studio利用你客服的知识来源或主题生成测试用例。
-
利用你的测试聊天对话 ,自动填充你在 测试聊天中提供的问题。 这种方法使用最新测试聊天中的题目。 你也可以在测试聊天中通过评估
按钮开始评估。
- 通过将文件拖入指定区域,选择“浏览”上传文件,或选择其他上传选项,从文件导入测试用例。
- 或者,自己写一些题 目,手动创建测试集。 按照步骤 编辑测试集 以添加和编辑测试用例。
编辑测试用例的细节。 所有使用方法(除 一般质量 外)的测试用例都需要预期响应。 关于编辑的更多信息,请参见 修改测试集。
在名称下,为测试集输入名称。
选择 用户配置文件,然后选择或添加你想用于此测试集的账户,或者继续进行不认证。 评估在测试中使用该账户连接知识来源和工具。 有关添加和管理用户配置文件的信息,请参见 “管理用户配置文件和连接”。
注释
自动化测试使用所选测试账户的认证。 如果你的代理拥有需要特定认证的知识来源或关系,请选择合适的账户进行测试。
- 选择 “保存 ”以更新测试集而不运行测试用例;选择 “评估 ”以立即运行测试集。
测试用例生成的限制
当你生成一组测试用例时,生成失败可能因为一个或多个问题违反了代理的内容审核设置。 原因包括:
- 代理的指令或主题引导模型生成被标记的内容
- 连接的知识源包含敏感或受限内容
- 代理的内容审核设置过于严格
你可能需要尝试不同的方法来解决问题,比如调整知识来源、更新说明或修改审核设置。
从知识或主题生成测试集
你可以利用代理人已有的信息和对话资源生成问题来测试你的代理人。 这种测试方法适合测试你的代理如何利用已有的知识和主题,但不适合检测信息空白。
你可以利用以下知识源生成测试用例:
- 文本
- Microsoft Word
- Microsoft Excel
生成测试集:
在 “新测试集 ”页面,选择 完整题集。
选择 知识 或 主题。
关于 知识,选择你想包含在问题生成中的知识来源。
- 对于 知识 和 主题,选择并拖动滑块以选择生成的问题数量。
然后选择“生成”。
编辑测试用例的细节。 所有使用方法(除 一般质量 外)的测试用例都需要预期响应。 关于编辑的更多信息,请参见 修改测试集。
选择 “管理配置文件 ”以选择或连接你想用于本次测试集的账户。 你也可以不添加账户进行身份验证继续。
注释
自动化测试使用所选测试账户的认证。 如果你的代理拥有需要特定认证的知识来源或关系,请选择合适的账户进行测试。
当Copilot Studio生成测试用例时,它会利用连接账户的认证凭证访问你座席的知识源和工具。 生成的测试用例或结果可能包含连接账户可访问的敏感信息,这些信息对所有能访问测试集的制造商可见。
- 选择 “保存 ”以更新测试集而不运行测试用例;选择 “评估 ”以立即运行测试集。
创建一个测试集文件来导入
无需直接在 Copilot Studio 中生成测试案例,可以创建包含所有测试案例的电子表格文件,并导入它们来创建测试集。 可以撰写每个测试问题,确定要使用的测试方法,然后为每个问题陈述预期响应。 创建完该文件后,将其另存为 .csv 或 .txt 文件,并将其导入 Copilot Studio。
重要
- 该文件最多可以包含 100 个问题。
- 每个问题最多可包含 1,000 个字符,包括空格。
- 文件必须使用逗号分隔值 (CSV) 或文本格式。
要创建导入文件,请执行以下操作:
打开电子表格应用程序(例如,Microsoft Excel)。
按以下顺序在第一行中添加以下标题:
- 问题
- 预期回复
- 测试方法
在问题列中输入测试问题。 每个问题可以是 1,000 个字符或更少,包括空格。
在测试方法列中为每个问题输入以下测试方法之一:
- 一般质量
- 比较含义
- 相似度
- 完全匹配
- 部分匹配
在预期响应列中输入每个问题的预期响应。 导入测试集时,预期响应是可选的。 但是,需要有预期响应才能运行匹配、相似性和比较含义测试案例。
将文件另存为 .csv 或 .txt 文件。
按照 创建新测试集中的步骤导入文件。