你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
注释
本文档适用于 Microsoft Foundry(新)门户。
若要全面评估大量数据集上生成 AI 模型和应用程序的性能,请启动评估过程。 在此评估期间,模型或应用程序使用给定数据集进行测试,并使用数学指标和 AI 辅助指标测量其性能。 此评估运行提供对应用程序功能和限制的全面见解。
使用 Microsoft Foundry 门户中的评估功能,该平台提供工具和功能来评估生成 AI 模型的性能和安全性。 在 Foundry 门户中,记录、查看和分析详细的评估指标。
本文介绍如何使用 Foundry UI 中的内置评估指标针对模型、代理或测试数据集创建评估运行。 为了提高灵活性,可以建立自定义评估流,并使用自定义评估功能。 使用 自定义评估 功能在不评估的情况下进行批处理运行。
先决条件
- 采用以下格式之一的测试数据集:CSV 或 JSON 行(JSONL)。
- Azure OpenAI 连接,部署以下其中一种模型:GPT-3.5 模型、GPT-4 模型或 Davinci 模型。 这仅适用于 AI 辅助质量评估。
- 采用以下格式之一的测试数据集:采用以下格式之一的模型、代理或测试数据集:CSV 或 JSON 行(JSONL)。
- Azure OpenAI 连接。 其中一种模型的部署:GPT-3.5 模型、GPT-4 模型或 Davinci 模型。 仅在运行 AI 辅助质量评估时是必需的。
使用内置评估指标创建评估
通过评估运行,可以为测试数据集中的每个数据行生成指标输出。 选择一个或多个评估指标来评估不同方面的输出。 从 Foundry 门户中的评估或模型目录页面创建评估运行。 评估创建向导会指导你设置评估运行。
从评估页
在左窗格中,选择“ 评估>”创建新的评估。
在左窗格中,选择“ 评估>创建”。
从模型或智能体操场页面
在模型游乐场页或代理游乐场页中,选择“评估>创建评估”或“评估指标>运行完整评估”。
评估目标
从 “评估 ”页开始评估时,选择评估目标。 指定适当的评估目标可以根据应用程序的特定性质定制评估,确保准确且相关的指标。 我们支持两种类型的评估目标:
- 模型:此选项评估所选模型和用户定义的提示生成的输出。
- 数据集:模型生成的输出已在测试数据集中。
从 “评估 ”页开始评估时,首先需要选择评估目标。 通过指定适当的评估目标,我们可以根据应用的特定性质定制评估,确保指标的准确性和相关性。 我们支持三种类型的评估目标:
- 模型:此选项评估所选模型和用户定义的提示生成的输出。
- 代理:此选项评估所选代理和用户定义的提示生成的输出
- 数据集:模型或代理生成的输出已在测试数据集中。
配置测试数据
在评估创建向导中,从预先存在的数据集中进行选择,或上传要评估的新数据集。 测试数据集需要具有要用于评估的模型生成的输出。 测试数据的预览显示在右窗格中。
选择或创建数据集
如果选择评估模型或代理,则需要数据集充当这些目标的输入,以便评估器可以评估响应。 在数据集步骤中,可以选择或上传自己的数据集,也可以综合生成数据集。
- 添加新数据集:从本地存储上传文件。 仅支持 CSV 和 JSONL 文件格式。 测试数据的预览显示在右窗格中。
- 合成数据集生成:合成数据集在缺少数据或无法访问数据以测试已生成的模型或代理的情况下非常有用。 使用综合数据生成时,可以选择生成数据的资源、要生成的行数,并且必须输入描述要生成的数据类型的提示。 此外,还可以上传文件以提高数据集与代理或模型所需任务的相关性
注释
此功能在所有区域中都不可用。 综合数据生成可用于支持响应 API 的区域。 有关支持区域的最新列表,请参阅 Azure OpenAI 响应 API 区域可用性。
配置测试条件
我们支持 Microsoft 特选的三种指标,以便于你全面评估应用程序:
- AI 质量(AI 辅助):这些指标评估生成的内容的整体质量和一致性。 需要一个模型部署作为判断来运行这些指标。
- AI 质量(NLP):这些自然语言处理(NLP)指标基于数学,还评估生成的内容的整体质量。 它们通常需要地面真实数据,但不需要模型部署作为判断。
- 风险和安全指标:这些指标侧重于识别潜在内容风险并确保生成的内容的安全性。
还可以创建自定义指标,并在测试条件步骤中将其选为评估器。
添加测试条件时,将使用不同的指标作为评估的一部分。 可以参考下表,以获取每种场景中支持的指标的完整列表。 有关指标定义及其计算方式的详细信息,请参阅 什么是计算器?。
| AI 质量(AI 辅助) | AI 质量 (NLP) | 风险和安全指标 |
|---|---|---|
| 有据性、相关性、连贯性、流畅性、GPT 相似性 | F1 分数、ROUGE 分数、BLEU 分数、GLEU 分数、METEOR 分数 | 自我伤害相关内容、仇恨和不公平内容、暴力内容、性内容、受保护材料、间接攻击 |
运行 AI 辅助质量评估时,必须为计算/评分过程指定 GPT 模型。
AI 质量 (NLP) 指标是基于数学的度量值,用于评估应用程序的性能。 它们通常需要真实数据来进行计算。 ROUGE 是一系列指标。 你可以选择 ROUGE 类型来计算分数。 各种类型的 ROUGE 指标提供多种方式来评估所生成文本的质量。 ROUGE-N 度量所生成文本与参考文本之间 n 元语法的重叠程度。
对于风险和安全指标,无需提供部署。 Foundry 门户预配 GPT-4 模型,该模型可生成内容风险严重性分数和推理,使你能够评估应用程序的内容危害。
注释
AI 辅助风险和安全指标由 Foundry 安全评估托管,仅在以下区域提供:美国东部 2、法国中部、英国南部、瑞典中部。
谨慎
以前使用 oai.azure.com 管理其模型部署并运行评估的用户,在入驻 Microsoft Foundry 开发人员平台之后,使用 ai.azure.com 时带有以下限制:
- 这些用户无法查看通过 Azure OpenAI API 创建的评估。 若要查看这些评估,必须返回
oai.azure.com。 - 这些用户无法使用 Azure OpenAI API 在 Foundry 中运行评估。 相反,他们应继续使用
oai.azure.com来完成此任务。 他们可以在创建数据集评估的选项中使用 Foundry 中直接提供的 Azure OpenAI 评估器。 如果部署是从 Azure OpenAI 迁移到 Foundry,则不支持用于微调模型评估的选项。
对于数据集上传和自带存储的方案,有一些配置要求:
- 帐户身份验证必须使用 Microsoft Entra ID。
- 必须将存储添加到帐户。 将其添加到项目会导致服务错误。
- 用户必须在 Azure 门户中通过访问控制将其项目添加到其存储帐户。
若要详细了解如何在 Azure OpenAI 中心使用 OpenAI 评估评分员创建评估,请参阅 如何在 Foundry 模型中使用 Azure OpenAI。
数据映射
评估的数据映射:对于添加的每个指标,必须指定数据集中的数据列与评估中所需的输入相对应。 不同的评估指标需要不同类型的数据输入,以进行准确的计算。
在评估期间,根据关键输入评估模型响应,例如:
- 查询:对所有指标都是必需的。
- 上下文:可选。
- 真实数据:可选,AI 质量(NLP)指标需要
这些映射可确保数据完全符合评估条件。
用于评估的数据映射:不同的评估指标需要不同类型的数据输入,以便进行准确的计算。
根据您生成或上传的数据集,我们会自动将这些数据集字段映射到评估器中存在的字段。 但是,应始终仔细检查字段映射,以确保其准确无误。 如果需要,可以重新分配字段。
查询和响应指标要求
有关每个指标的特定数据映射要求的指导,请参阅表中提供的信息:
| 指标 | 查询 | 响应 | 上下文 | 基本事实 |
|---|---|---|---|---|
| 真实性 | 必需:Str | 必需:Str | 必需:Str | 不适用 |
| 一致性 | 必需:Str | 必需:Str | 不适用 | 不适用 |
| 流畅度 | 必需:Str | 必需:Str | 不适用 | 不适用 |
| 相关性 | 必需:Str | 必需:Str | 必需:Str | 不适用 |
| GPT 相似性 | 必需:Str | 必需:Str | 不适用 | 必需:Str |
| F1 分数 | 不适用 | 必需:Str | 不适用 | 必需:Str |
| BLEU 分数 | 不适用 | 必需:Str | 不适用 | 必需:Str |
| GLEU 分数 | 不适用 | 必需:Str | 不适用 | 必需:Str |
| METEOR 分数 | 不适用 | 必需:Str | 不适用 | 必需:Str |
| ROUGE 分数 | 不适用 | 必需:Str | 不适用 | 必需:Str |
| 自我伤害相关内容 | 必需:Str | 必需:Str | 不适用 | 不适用 |
| 仇恨和不公平内容 | 必需:Str | 必需:Str | 不适用 | 不适用 |
| 暴力内容 | 必需:Str | 必需:Str | 不适用 | 不适用 |
| 性内容 | 必需:Str | 必需:Str | 不适用 | 不适用 |
| 受保护的材料 | 必需:Str | 必需:Str | 不适用 | 不适用 |
| 间接攻击 | 必需:Str | 必需:Str | 不适用 | 不适用 |
- 查询:查找特定信息的查询。
- 响应:对模型生成的查询的响应。
- 上下文:响应所基于的源。 (示例:基础设置文档。)
- 基本事实:由充当真实答案的人类用户生成的查询响应。
查看和提交
完成必要的配置后,请提供评估的可选名称。 查看设置,然后选择 “提交 ”以启动评估运行。
完成所有必要的配置后,可以为评估提供一个名称。 然后,可以查看并选择“提交”以提交评估运行。
模型评估
若要为所选模型部署创建新的评估,可以使用 GPT 模型生成示例问题,也可以从已建立的数据集集合中进行选择。
为模型配置测试数据
设置用于评估的测试数据集。 此数据集将发送到模型以生成评估响应。 有两个选项可用于配置测试数据:
- 生成示例问题
- 使用现有数据集(或上传新数据集)
生成示例问题
如果没有现成的数据集,并且想要使用小型示例运行评估,请选择要基于所选主题进行评估的模型部署。 支持 Azure OpenAI 模型和其他与无服务器 API 部署兼容的开放模型,例如 Meta Llama 和 Phi-3 系列模型。
本主题根据感兴趣的区域定制生成的内容。 查询和响应是实时生成的,你可以根据需要重新生成它们。
使用您的数据集
还可以从已建立的数据集集合中选择,或上传新数据集。
选择评估指标
若要配置测试条件,请选择“ 下一步”。 选择条件时,会添加指标,并且需要将数据集的列映射到评估所需的字段。 这些映射可确保数据完全符合评估条件。
选择所需的测试条件后,可以查看评估,可以选择更改评估的名称,然后选择 “提交”。 转到评估页以查看结果。
注释
创建评估运行后,生成的数据集将保存到项目的 Blob 存储中。
查看和管理评估器库中的评估器
在评估器库中集中查看您的评估器的详细信息和状态。 查看和管理 Microsoft 策展的评估器。
评估器库还会启用版本管理。 你可以比较不同的工作版本,根据需要还原以前的版本,并更轻松地与他人协作。
若要在 Foundry 门户中使用计算器库,请转到项目的 “评估 ”页,然后选择“ 评估器库 ”选项卡。
选择计算器名称可查看更多详细信息,包括名称、说明、参数和任何关联的文件。 下面是 Microsoft 策展评估器的一些示例:
- 有关由Microsoft精选的性能和质量评估人员,请查看详细信息页上的注释提示。 根据用例调整这些提示。 根据 Azure AI 评估 SDK 中的数据和目标更改参数或条件。 例如,可以选择“Groundedness-评估器”并检查“提示”文件,其中显示了如何计算指标。
- 有关由Microsoft管理的风险和安全评估指标,请参阅其定义。 例如,选择“ 自我伤害相关内容评估器 ”,了解其含义并了解Microsoft如何确定严重性级别。
相关内容
详细了解如何评估生成式 AI 应用程序: