你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Microsoft Foundry 门户中的模型排行榜(预览版)

注释

本文档适用于 Microsoft Foundry(经典)门户。

🔄 如果你使用的是新门户,请切换到 Microsoft Foundry(新)文档

注释

本文档适用于 Microsoft Foundry(新)门户。

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

Microsoft Foundry 门户中的模型排行榜(预览版)使你能够简化 Foundry 模型目录中的模型选择过程。 模型排行榜以行业标准基准为依据,可帮助你查找最适合你自定义 AI 解决方案的模型。 在模型目录的“模型排行榜”部分中,可以 浏览排行榜 以比较可用模型,如下所示:

通过 Foundry 门户中的模型排行榜(预览版),可以简化 Foundry 模型目录中的模型选择过程。 模型排行榜以行业标准基准为依据,可帮助你查找最适合你自定义 AI 解决方案的模型。

你可以详细了解每部分基准测试方法:

  • 语言模型质量基准测试:理解模型在核心任务上的表现如何,包括推理、知识、问答、数学和编码;
  • 语言模型安全基准测试:理解安全模型如何免受有害行为生成的影响;
  • 语言模型性能基准测试:理解模型在延迟和吞吐量方面的性能表现;
  • 语言模型成本基准测试:理解使用模型的估计成本;
  • 语言模型方案排行榜基准测试:可帮助你查找最适合特定用例或方案的模型;
  • 嵌入模型质量基准测试,以理解模型在基于嵌入的任务(包括搜索和检索)上的表现。

每当找到喜欢的模型时,都可以将其选中,并放大模型目录中模型 的详细基准测试结果 。 如果对模型感到满意,可以部署模型,在沙盒中试用该模型,或对您的数据进行评估。 排行榜支持跨文本语言模型(大型语言模型(LLM)和小型语言模型(SLM)和嵌入模型进行基准测试。

模型基准评估以下类别的 LLM 和 SLA:质量、安全、成本和吞吐量。 此外,我们还使用标准基准评估嵌入模型的质量。 随着更多更合理的不饱和基准的加入以及新模型添加到模型目录,排行榜会定期更新。

模型基准测试范围

模型排行榜从 Foundry 模型目录中精选了基于文本的语言模型。 模型基于以下条件入选:

  • 优先 Azure 直接模型:严格选择 Azure 直接模型,这些模型是推荐用于客户 GenAI 方案且相关性最高的模型。
  • 核心基准适用性:模型必须适用于常规用途语言任务,包括推理、知识、问答 (QA)、数学推理和编码功能。 不支持专用模型(例如蛋白质折叠或特定于域的 QA)或其他形式。

此范围可确保排行榜反映当下时兴且与核心 AI 方案相关的高质量模型。

语言模型的质量基准

Foundry 使用标准、综合基准数据集的准确度分数评估 LLM 和 SLM 的质量。这些评分衡量模型的各种能力,例如推理、知识、问答、数学和编码等。

索引 说明
质量指数 质量索引是在综合标准基准数据集上,通过对适用的准确度分数(exact_match、pass@1、arena_hard)进行平均计算来得出的。

质量指数在零到一的范围内提供。 质量指数值越高越好。 质量索引中包含的数据集包括:

数据集名称 类别
arena_hard QA
bigbench_hard(降级到 1,000 个示例) 推理
gpqa QA
humanevalplus 编写代码
ifeval 推理
math 数学
mbppplus 编写代码
mmlu_pro(降级到 1,000 个示例) 一般知识

查看准确性分数的更多详细信息:

指标 说明
准确性 准确度评分在数据集和模型级别提供。 在数据集级别,评分是对数据集中所有示例计算的准确度指标的平均值。 在所有情况下都使用exact-match的准确性指标,但对于使用指标的HumanEvalpass@1数据集除外。 完全匹配会根据数据集将模型生成的文本与正确答案进行比较,如果生成的文本与答案完全匹配,则报告 1,否则报告 0。 pass@1 指标用于度量在代码生成任务中通过了一组单元测试的模型解决方案的比例。 在模型级别,准确度评分是每个模型的数据集级准确度的平均值。

准确性分数是在零到一的范围内提供的。 值越大越好。

语言模型的安全基准

为了指导选择用于评估的安全基准,我们应用结构化筛选和验证过程,旨在确保相关性和严格性。 如果基准能解决高优先级风险,就符合入职资格。 对于安全排行榜,我们查看不同的基准,这些基准可以被视为足够可靠,以便在与安全相关的某些主题上提供一些信号。 我们选择 HarmBench 来代理模型安全性,并按如下所示组织方案排行榜:

数据集名称 排行榜应用场景 指标 解释
HarmBench (标准) 标准有害行为 攻击成功率 较低值意味着对生成非法标准有害内容的攻击具有更好的抵御能力
HarmBench(上下文) 在特定语境中具有害处的行为 攻击成功率 较低的数值意味着对生成非法上下文有害内容的攻击具有更好的抵御能力
HarmBench (侵犯版权) 侵犯版权 攻击成功率 较低的值意味着更好地抵御旨在违反非法版权的行为的攻击
WMDP 敏感域中的知识 准确性 较高的值表示敏感领域的更多知识(网络安全、生物安全和化学安全)
Toxigen 能够检测有毒内容 F1 分数 较高的值意味着能够更好地检测有毒内容

模型有害行为

HarmBench 基准衡量模型有害行为,包括来自模型的非法有害行为的提示。 与安全相关时,基准涵盖行为的七种语义类别:

  • 网络犯罪和未经授权的入侵
  • 化学和生物武器/药物
  • 侵犯版权
  • 错误信息与反信息
  • 骚扰和欺凌
  • 非法活动
  • 一般性伤害

这七个类别又可以汇总为三个功能类别

  • 标准有害行为
  • 上下文有害行为
  • 版权违规

每个功能类别都出现在单独的方案排行榜中。 我们使用来自 HarmBench(无攻击)和 HarmBench 评估器的直接提示来计算攻击成功率(ASR)。 ASR 值更低意味着模型更安全。 我们评估中不会探索任何攻击策略,并且执行模型基准测试时已关闭 Foundry 内容安全筛选器。

模型检测有毒内容的能力

Toxigen 是一个大规模计算机生成的数据集,用于对抗和隐式仇恨语音检测。 它包含隐式有毒和良性的句子,提到13个少数民族。 我们使用 Toxigen 的带批注样本进行评估和计算 F1 分数来衡量分类性能。 此数据集的评分更高意味着模型更善于检测有毒内容。 模型基准测试将在 Foundry 内容安全筛选器关闭的情况下执行。

敏感域中的模型知识

大规模杀伤性代理 (WMDP) 基准衡量敏感领域的模型知识,包括生物安全、网络安全和化学安全。 排行榜使用网络安全、生物安全和化学安全的平均准确度分数。 更高的 WMDP 准确度分数表示对危险能力(安全角度更差的行为)的了解。 执行模型基准测试时会开启默认的 Foundry 内容安全筛选器。 这些安全筛选器会检测和阻止涉及暴力、自我伤害、性、仇恨和不公平性的有害内容,但不针对网络安全、生物安全和化学安全类别。

安全基准的限制

我们理解并承认安全是一个复杂的主题,具有多个维度。 目前没有一个开源基准可以测试或表示不同方案中系统的完整安全性。 此外,这些基准中的大多数都遭受了饱和,或基准设计和风险定义之间的不对称,可能缺乏关于目标风险概念化和作化方式的明确文档,因此很难评估基准是否准确捕获风险的细微差别。 这种限制可能导致在实际安全方案中过度估计或低估模型性能。

语言模型的性能基准

性能指标根据每天发送的 24 条跟踪(每条跟踪两个请求,每条跟踪间隔 1 小时)在 14 天内进行汇总计算得出的。 以下默认参数用于向模型终结点发出的每个请求:

参数 价值 适用于
区域 美国东部/美国东部 2 无服务器 API 部署Azure OpenAI
每分钟令牌数 (TPM) 速率限制 对于非推理模型,为 30k(180 RPM,基于 Azure OpenAI),对于推理模型,为 100k
N/A(无服务器 API 部署)
对于 Azure OpenAI 模型,用户可以根据部署类型(无服务器 API、全局、全局标准等)选择速率限制范围。
对于无服务器 API 部署,此设置是抽象的。
请求数量 每小时 1 个追踪(每天 24 个追踪),每个追踪包含 2 个请求 无服务器 API 部署,Azure OpenAI
跟踪/运行数 14 天,每天 24 个追踪,336 次运行 无服务器 API 部署,Azure OpenAI
提示/上下文长度 中等长度 无服务器 API 部署,Azure OpenAI
处理的令牌数(中等) 输入与输出令牌的比例为 80:20,即 800 个输入令牌对应 200 个输出令牌。 无服务器 API 部署,Azure OpenAI
并发请求数 1 个(请求依次逐个发送) 无服务器 API 部署,Azure OpenAI
数据 合成的(基于静态文本准备的输入提示) 无服务器 API 部署,Azure OpenAI
区域 美国东部/美国东部 2 无服务器 API 部署和 Azure OpenAI
部署类型 无服务器 API 仅适用于 Azure OpenAI
流媒体 True 适用于无服务器 API 部署和 Azure OpenAI。 对于通过托管计算部署的模型,或者对于不支持流式处理的终结点,TTFT 表示为延迟指标的 P50 值。
SKU Standard_NC24ads_A100_v4(24 核、220GB RAM、64GB 存储) 仅适用于托管计算(估算成本和性能指标)

LLM 和 SLM 的性能通过以下指标进行评估:

指标 说明
延迟平均值 通过多个请求计算得出的处理请求所用的平均时间(以秒为单位)。 为了计算此指标,我们将在两周内每小时向终结点发送一个请求,并计算平均值。
延迟 P50 延迟的第 50 百分位值(中值)(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,50% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P90 延迟的第 90 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,90% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P95 延迟的第 95 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,95% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P99 延迟的第 99 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,99% 的请求在“x”秒内完成,“x”是延迟度量。
吞吐量 GTPS 每秒生成的令牌数 (GTPS) 是从请求发送到终结点开始每秒生成的输出令牌数。
吞吐量 TTPS 每秒令牌总数 (TTPS) 是每秒处理的令牌总数,包括来自输入提示和生成的输出令牌。 对于不支持流式处理的模型,响应第一个令牌的时间 (TTFT) 表示延迟值(即接收响应所需的时间)的 P50 值
延迟 TTFT 生成首个令牌的总时间 (TTFT) 是启用流式处理时生成从终结点返回的响应中的第一个令牌所花费的时间。
令牌间隔时间 此指标是接收令牌的间隔时间。

Foundry 还显示延迟和吞吐量的性能指标,如下所示:

指标 说明
延迟 生成首个令牌的平均时间。 值越小越好。
吞吐量 每秒生成的平均令牌数。 值越大越好。

对于延迟或吞吐量等性能指标,生成首个令牌的时间和每秒生成的令牌数可以更全面地反映模型的典型性能和行为。 我们定期刷新性能指标。

语言模型的成本基准

成本计算是使用托管在 Foundry 平台上的 LLM 或 SLM 模型终结点的估计成本。 Foundry 支持显示无服务器 API 部署和 Azure OpenAI 模型的成本。 由于这些成本可能会更改,因此我们会定期刷新成本计算。

LLM 和 SLM 的成本通过以下指标进行评估:

指标 说明
每个输入令牌的成本 100 万个输入令牌的无服务器 API 部署成本
每个输出令牌的成本 100 万个输出令牌的无服务器 API 部署成本
估计成本 每个输入令牌的成本和每个输出令牌的成本的总和,比率为 3:1。

Foundry 还按如下所示显示成本:

指标 说明
成本 估计每 100 万个令牌的美元成本。 估计的工作负荷使用输入和输出令牌之间的三对一比率。 值越小越好。

方案排行榜基准测试

方案排行榜按常见的实际评估目标对基准数据集进行分组,以便你可以根据用例快速确定模型的优缺点。 每个方案会聚合一个或多个公共基准数据集。 下表汇总了可用的方案排行榜及其关联的数据集和说明:

Scenario 数据集 说明
标准有害行为 HarmBench(标准) 衡量标准有害提示的攻击成功率。 排名越低越好。
上下文有害行为 HarmBench(上下文) 衡量上下文有害提示的攻击成功率。 排名越低越好。
侵犯版权 HarmBench(版权) 衡量版权侵犯提示的攻击成功率。 排名越低越好。
敏感域中的知识 WMDP(生物安全、化学安全、网络安全) 跨三个敏感域子集的准确度。 准确度越高,表明模型在敏感领域的知识能力越强。
毒性检测 ToxiGen(批注) 有毒内容检测能力的 F1 分数。 更高越好。
推理 BIG-Bench Hard(1,000 个子样本) 推理功能评估。 值越大越好。
编写代码 BigCodeBench(指示)、HumanEvalPlusLiveBench(编码)MBPPPlus 测量与代码相关的任务的准确度。 值越大越好。
常识 MMLU-Pro(1K 英语子样本) MMLU-Pro 的 1,000 个仅限英语的示例子样本。
问答 Arena-HardGPQA (diamond) 对抗人类偏好 QA (Arena-Hard) 和研究生级多学科 QA (GPQA diamond)。 值越大越好。
数学 MATH(500 子样本) 衡量语言模型的数学推理功能。 值越大越好。
Groundedness TruthfulQA (MC1) 评估语言模型的多选有据性/真实性。 值越大越好。

嵌入模型的质量基准

嵌入模型的质量索引定义为面向信息检索、文档聚类分析和摘要任务的综合无服务器 API 基准数据集的平均准确度分数。

查看特定于每个数据集的准确性分数定义的更多详细信息:

指标 说明
准确性 准确性是所处理的预测总数中正确预测的比例。
F1 分数 F1 分数是精准率和召回率的加权平均值,其中最佳值为 1(完美的精准率和召回率),最差值为 0。
平均精准率均值 (MAP) MAP 评估排名和推荐器系统的质量。 它衡量建议项的相关性,以及系统将更相关项目置于顶部的能力。 值的范围可以是 0 到 1,MAP 越高,系统就越能将相关项目放在列表的高位。
归一化折损累计增益 (NDCG) NDCG 评估机器学习算法根据相关性对项进行排序的能力。 它将排名与所有相关项位于列表顶部的理想顺序进行比较(其中 k 是列表长度),同时评估排名质量。 在我们的基准中,k=10(由 ndcg_at_10 指标表示),意味着我们会查看前 10 项。
精准率 精准率衡量模型正确标识特定类的实例的能力。 精度会显示机器学习模型在预测目标类时的正确频率。
斯皮尔曼相关系数 基于余弦相似性的斯皮尔曼相关性的计算方式是,首先计算变量之间的余弦相似性,然后对这些分数进行排名,再使用排名来计算斯皮尔曼相关性。
V 度量值 V 度量值是用于评估群集质量的指标。 V 度量值是同质性和完整性的调和平均值,确保两者之间的平衡,以获得有意义的分数。 可能的分数介于 0 和 1 之间,1 表示完全完整的标记。

分数的计算

个人得分

基准检验结果源自常用于语言模型评估的公共数据集。 在大多数情况下,数据托管在由数据创建者或管护者维护的 GitHub 存储库中。 Foundry 评估管道从原始数据源下载数据,从每个示例行中提取提示,生成模型响应,然后计算相关的准确度指标。

提示构造遵循每个数据集的最佳做法,这些做法由介绍数据集和行业标准的论文定义。 在大多数情况下,每个提示都包含几个样本,即完整问题和答案的示例,以便为任务模型打好基础。 评估管道通过从评估中保留的部分数据对问题和答案进行采样来创建样本。