你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Microsoft Foundry 门户中查看评估结果

注释

本文档引用 Microsoft Foundry (经典) 门户。

🔄 如果你使用的是新门户,请切换到 Microsoft Foundry(新)文档

注释

本文档指的是 Microsoft Foundry(新) 门户网站。

了解如何在 Microsoft Foundry 门户中查看评估结果。 查看和解释 AI 模型评估数据、性能指标和质量评估。 从流、实验环境会话和 SDK 获取结果,以做出数据驱动的决策。

可视化评估结果后,请仔细检查它们。 查看单个结果,在多个评估运行中比较它们,并确定趋势、模式和差异,以便深入了解 AI 系统在各种条件下的性能。

在本文中,您将学习:

  • 找到并打开评估运行。
  • 查看聚合和示例级指标。
  • 比较不同运行的结果。
  • 解释指标类别和计算。
  • 排查缺失或不完整的指标。

查看评估结果

提交评估后,在评估页上查找执行结果。 筛选或调整列以关注感兴趣的运行。 在深入分析之前,一目了然地查看顶层指标。

小窍门

可以使用任何版本的 promptflow-evals SDK 或 azure-ai-evaluation 版本 1.0.0b1、1.0.0b2、1.0.0b3 查看评估执行情况。 启用“显示所有运行”开关以查找运行。

选择“了解更多关于指标的定义和公式”。

显示评估指标详细信息的屏幕截图。

选择一个运行以查看详细信息(数据集、任务类型、提示、参数)以及每个样本的指标。 指标仪表板可视化每个指标的传递率或聚合分数。

谨慎

以前使用 oai.azure.com 管理其模型部署并运行评估的用户,在入驻 Microsoft Foundry 开发人员平台之后,使用 ai.azure.com 时带有以下限制:

  • 这些用户无法查看通过 Azure OpenAI API 创建的评估。 若要查看这些评估,必须返回 oai.azure.com
  • 这些用户无法使用 Azure OpenAI API 在 Foundry 中运行评估。 相反,他们应继续使用 oai.azure.com 来完成此任务。 他们可以在创建数据集评估的选项中使用 Foundry 中直接提供的 Azure OpenAI 评估器。 如果部署是从 Azure OpenAI 迁移到 Foundry,则不支持用于微调模型评估的选项。

对于数据集上传和自带存储的方案,有一些配置要求:

  • 帐户身份验证必须使用 Microsoft Entra ID。
  • 必须将存储添加到帐户。 将其添加到项目会导致服务错误。
  • 用户必须在 Azure 门户中通过访问控制将其项目添加到其存储帐户。

若要详细了解如何在 Azure OpenAI 中心使用 OpenAI 评估评分员创建评估,请参阅 如何在 Foundry 模型中使用 Azure OpenAI

在 Foundry 中,引入了组运行的概念。 可以在共享常见特征(如指标和数据集)的组中创建多个运行,以便更轻松地进行比较。 运行评估后,在 “评估 ”页上找到该组,其中包含组评估列表和关联的元数据,例如目标数和上次修改日期。

选择一个组运行以查看组详细信息,包括每个运行和高级指标,例如该组中每个运行的持续时间、令牌和评估器分数。

通过在此组中选择运行,还可以深入查看该特定运行的行详细数据。

选择“了解更多关于指标的定义和公式”。

指标仪表板

“指标仪表板 ”部分中,聚合视图按包括 AI 质量(AI 辅助)风险和安全(预览版)AI 质量(NLP)自定义 (如果适用)的指标细分。 根据创建评估时选择的条件,结果以通过/失败的百分比进行度量。 有关指标定义及其计算方式的详细信息,请参阅 什么是计算器?

  • 对于 AI 质量(AI 辅助) 指标,结果通过平均每个指标的所有分数进行聚合。 如果使用 Groundedness Pro,则输出为二进制,聚合分数为传递速率: (#trues / #instances) × 100 显示 AI 质量(AI 辅助)指标仪表板选项卡的屏幕截图。
  • 对于 风险和安全(预览版) 指标,结果按缺陷率进行聚合。
    • 内容危害:超过严重性阈值的实例百分比(默认值 Medium)。
    • 对于受保护的材料和间接攻击,缺陷率计算为应用公式true时输出结果为(Defect Rate = (#trues / #instances) × 100)的实例百分比。 显示风险和安全指标仪表板选项卡的屏幕截图。
  • 对于 AI 质量(NLP) 指标,按每个指标的平均分数聚合结果。 显示 AI 质量(NLP)仪表板选项卡的屏幕截图。

评估运行结果和通过率

可以在“评估运行与结果通过率”页面中查看组内的每个运行。 此视图显示所选的每个评估器的运行、目标、状态、运行持续时间、令牌和通过率。

如果您想取消运行,可以通过选择各个运行并单击列表顶部的“取消运行”按钮来完成。

详细指标结果表

使用仪表板下方的表格检查每个数据样本。 按指标排序,以显示性能最差的样本并识别系统间隙(错误结果、安全故障、延迟)。 使用搜索功能聚类相关的故障主题。 应用列自定义以专注于关键指标。

典型操作:

  • 筛选低分数以检测重复模式。
  • 出现系统性差距时,请调整提示或进行微调。
  • 导出以供脱机分析。

下面是问答方案的指标结果的一些示例:

显示问题解答方案的指标结果的屏幕截图。

某些评估具有子评估器,使你能够查看子评估结果的 JSON。 若要查看结果,请选择 JSON 中的“查看”。

显示已选择 JSON 的详细指标结果的屏幕截图。

JSON 预览版中查看 JSON:

显示 JSON 预览的屏幕截图。

下面是聊天方案的指标结果的一些示例。 若要在整个多轮对话中查看结果,请在“对话”列中选择“按轮次查看评估结果”。

显示聊天方案的指标结果的屏幕截图。

选择 “按轮次查看评估结果”时,会看到以下屏幕:

显示每轮评估结果的屏幕截图。

对于多模式方案中的安全评估(文本和图像),可以通过查看详细指标结果表中的输入和输出中的图像来更好地了解评估结果。 由于目前仅会话方案支持多模式评估,因此可以选择 “查看每个轮次的评估结果 ”来检查每个轮次的输入和输出。

显示对话列中图像对话框的屏幕截图。

选择要展开的图像并进行查看。 默认情况下,所有图像都是模糊的,以保护你免受潜在有害内容的影响。 若要清楚地查看图像,请打开 “检查模糊图像 ”切换。

显示模糊图像和“检查模糊图像”切换的屏幕截图。

评估结果对于不同的受众可能有不同的含义。 例如,安全评估可能会为 暴力内容的低 严重性生成标签,该标签可能与人工审阅者对特定暴力内容有多严重性的定义不一致。 在创建评估期间设置的合格成绩将确定是分配合格还是不合格。 有一个 人工反馈 列,你可以在查看评估结果时选择竖起大拇指或向下拇指图标。 可以使用此列记录人工审阅者批准或标记为错误的实例。

显示具有人工反馈的风险和安全指标结果的屏幕截图。

若要了解每个内容风险指标,请在 “报表 ”部分中查看指标定义,或查看“ 指标仪表板 ”部分中的测试。

如果运行出现问题,还可以使用日志调试评估运行。 下面是一些可用于调试评估运行的日志示例:

显示可用于调试评估运行的日志的屏幕截图。

如果您正在评估提示流,可以选择 “查看流” 按钮以转到已评估的流页面并更新您的流程。 例如,可以添加额外的元提示说明,或更改某些参数并重新计算。

评估运行数据

若要查看单个运行的轮次数据,请选择运行的名称。 这提供了一个视图,使你可以根据所使用的每个评估者逐个查看评估结果。

比较评估结果

若要比较两个或两个以上的运行,请选择所需的运行并启动进程。 为详细的仪表板视图选择“ 比较 ”按钮或“ 切换到仪表板视图 ”按钮。 分析和对比多个运行的性能和结果,以做出明智的决策和有针对性的改进。

显示用于比较评估的选项的屏幕截图。

在仪表板视图中,可以访问两个有价值的组件:指标分布比较 图表 和比较 。 可以使用这些工具对所选评估运行执行并行分析。 可以轻松准确地比较每个数据样本的各个方面。

注释

默认情况下,较旧的评估运行在列之间具有匹配的行。 但是,新的评估运行必须在评估创建期间有意配置为具有匹配的列。 确保与要比较的所有评估中的 “条件名称” 值使用相同的名称。

以下屏幕截图显示了字段相同时的结果:

显示字段相同时自动评估的屏幕截图。

当用户在创建评估时未使用相同的 条件名称 时,字段不匹配,这会导致平台无法直接比较结果:

显示字段不同时自动评估的屏幕截图。

在比较表中,将鼠标悬停在要用作参考点的运行上,并将其设置为基线。 激活“显示增量”开关,以可视化基线运行与其他运行之间的数值差异。 选择“仅显示差异”开关,以仅显示所选运行中的不同行,帮助识别差异。

通过使用这些比较功能,你可以做出明智的决定来选择最佳版本:

  • 基线比较:通过设置基线运行,可以识别用于与其他运行进行比较的参考点。 您可以看到每次执行如何偏离您所选择的标准。
  • 数值评估:启用 “显示增量 ”选项有助于了解基线与其他运行之间的差异的程度。 此信息可帮助你评估各种运行在特定的评估指标方面的表现。
  • 差异隔离仅显示差异 功能通过仅突出显示运行之间存在差异的区域来简化分析。 此信息有助于确定需要改进或调整的位置。

使用比较工具选择性能最佳的配置,避免安全性或稳健性方面的回退。

显示并排评估结果的屏幕截图。

为了便于在两个或多个运行之间进行全面比较,可以选择所需的运行并启动进程。

  1. 在评估详细信息页中选择两个或两个以上的运行。
  2. 选择“比较”。

它为所有选定的运行生成并排比较视图。

比较是基于统计t检验来计算的,该检验提供更敏感且可靠的结果,以便您做出决策。 可以使用此功能的不同功能:

  • 基线比较:通过设置一个基线任务运行,您可以确定一个参考点以此来比较其他任务的运行情况。 您可以看到每次执行如何偏离您所选择的标准。
  • 统计 t 检验评估:每个单元格提供使用不同颜色代码且在统计方面具有显著性差异的结果。 还可以将鼠标悬停在单元格上以获取样本大小和 p 值。
传说 Definition
ImprovedStrong 统计显著性差异大 (p<=0.001) 且朝所需方向移动
ImprovedWeak Stat-sig (0.001<p<=0.05) 并按照所需方向移动
DegradedStrong 统计显著性差异大 (p<=0.001) 但朝错误方向移动
DegradedWeak Stat-sig (0.001<p<=0.05)并朝错误的方向移动
ChangedStrong 高度统计显著性(p<=0.001)且期望的方向是中性方向
ChangedWeak Stat-sig (0.001<p<=0.05) 和所需方向是中性方向
无结论 示例太少,或 p>=0.05

注释

不会保存比较视图。 如果离开页面,可以重新选择运行,然后选择“比较”以重新生成视图。

测量越狱漏洞

评估越狱漏洞是一种比较度量,而不是 AI 辅助指标。 对两个不同的红队数据集运行评估:基线对抗性测试数据集与第一轮越狱注入的相同对抗性测试数据集。 可以使用对抗性数据模拟器生成包含或不包含越狱注入的数据集。 配置运行时,请确保每个评估指标 的条件名称 值相同。

若要检查应用程序是否容易受到越狱攻击,请指定基线并打开比较表中的 越狱缺陷率 切换。 越狱缺陷率是指在测试数据集中,相对于跨整个数据集的基线,越狱注入对任何内容风险指标产生较高严重性分数的实例的百分比。“比较 ”仪表板中选择多个评估,以查看缺陷率的差异。

切换打开越狱缺陷的并排评估结果的屏幕截图。

小窍门

只有在数据集大小相同且所有运行都包含内容风险和安全指标的情况下,才计算越狱缺陷率。

了解内置评估指标

了解内置指标对于评估 AI 应用程序的性能和有效性至关重要。 通过了解这些关键度量工具,可以解释结果、做出明智的决策,并微调应用程序以实现最佳结果。

若要了解详细信息,请参阅 什么是评估程序?

Troubleshooting

症状 可能的原因 Action
运行保持挂起状态 高服务负载或排队作业 刷新、验证配额,并在延长时重新提交
缺少指标 创建时未选择 重新运行并选择所需的指标
所有安全指标都为零 类别已禁用或不受支持的模型 确认模型和指标支持矩阵
有据性意外较低 检索/上下文不完整 验证上下文构造/检索延迟

了解如何评估生成式 AI 应用程序: