你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Microsoft Foundry 模型的优先级处理(预览版)

注释

本文档适用于 Microsoft Foundry(经典)门户。

🔄 如果你使用的是新门户,请切换到 Microsoft Foundry(新)文档

注释

本文档适用于 Microsoft Foundry(新)门户。

重要

优先处理当前处于预览阶段,仅限邀请使用。 在此处注册,以便在更广泛可用时收到通知。

此预览版未随附服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

优先级处理提供低延迟性能,具有即用即付的灵活性。 它以即用即付令牌模型运行,提供快速响应时间,无需长期合同承诺。 本文介绍以下主题:

  • 优先级处理概述
  • 如何启用优先级处理
  • 如何验证用于处理请求的服务层
  • 如何监视成本

优点

  • 可预测的低延迟:更快、更一致的令牌生成。
  • 易于使用的灵活性:与标准即用即付处理一样,以灵活的即用即付方式进行访问优先级处理,而无需提前预配和预留。

关键用例

  • 提供一致且低延迟的响应式用户体验。
  • 按需付费的简单,无需长期承诺。
  • 营业时间或突发流量会受益于可缩放且具有成本效益的性能的。 (可选)可以将优先级处理与预配的吞吐量单位(PTU)相结合,实现稳定状态容量和成本优化。

限制

  • 渐变限制: 快速增加每分钟处理令牌的优先级可能会导致达到渐变速率限制。 如果超出速率限制,服务可能会改为将额外的流量发送到标准处理。

  • 配额: 优先处理与标准处理使用相同的配额。 这意味着您的部署在启用优先级处理后,会消耗您现有标准分配中的配额。

支持优先处理

全局标准模型可用性

Region gpt-4.1, 2025-04-14
eastus 2
swedencentral
westus3

已知问题

优先级处理当前存在以下限制,并且正在进行修复:

  • gpt-4.1 的长上下文限制: 该服务不支持超过 128,000 个令牌的请求,并返回 HTTP 400 错误。

  • 不支持 PTU 溢出: 该服务尚不支持将 PTU 溢出到启用了优先级处理的部署。 如果需要溢出行为,请实现自己的逻辑,例如使用 Azure API 管理。

  • 在响应 API 中使用流式处理时,service_tier值不正确: 通过响应 API 流式处理响应时, service_tier 即使容量约束或坡道限制导致请求由标准层提供服务,字段也可能错误地返回“优先级”。 在这种情况下,service_tier 的预期值是 "default"。

先决条件

  • Azure 订阅 - 免费创建订阅
  • 已部署 Azure OpenAI 资源,其中包含部署类型为 GlobalStandardDataZoneStandard 的模型。

在部署级别启用优先级处理

可以在部署级别启用优先级处理,并在 请求级别(可选)启用优先级处理。

Microsoft Foundry 门户中,可以在部署设置期间启用优先级处理。 在创建部署时,或者通过编辑已部署模型的部署详细信息来更新设置时,打开部署详细信息页上的 “优先级处理(预览版)”开关

显示如何在 Foundry 门户中更新已部署模型的设置来启用优先级处理的屏幕截图。

Microsoft Foundry 门户中,可以在部署设置期间启用优先级处理。 在创建部署或通过编辑部署详细信息更新已部署模型的设置时,在部署详细信息页上打开 “优先级处理”(预览) 切换。

显示如何在 Foundry 门户中的模型部署期间启用优先级处理的屏幕截图。

注释

如果希望使用代码在部署级别启用优先级处理,可以通过 REST API 进行部署,方法是设置service_tier属性,如下所示: "properties" : {"service_tier" : "priority"} 特性service_tier的允许值为defaultprioritydefault 表示标准处理,同时 priority 启用优先级处理。

将模型部署配置为使用优先级处理后,可以开始向模型发送请求。

验证用于处理请求的服务层

在请求中设置 service_tier 参数时,响应包括用于为请求提供服务的处理模式的服务层值(prioritydefault)。 此响应值可能与在请求中设置的参数值不同。

查看使用情况指标

可以在 Azure 门户的 Azure Monitor 部分查看资源的利用率度量值。

若要查看标准处理与优先级处理所处理的请求量,请按原始请求中的服务层级(标准层或优先级)拆分:

  1. 登录到 https://portal.azure.com
  2. 转到 Azure OpenAI 资源,然后从左侧导航中选择 “指标 ”选项。
  3. 在指标页上,添加 Azure OpenAI 请求 指标。 还可以选择其他指标,例如 Azure OpenAI 延迟Azure OpenAI 使用情况和其他指标。
  4. 选择 “添加筛选器 ”以选择处理优先级请求的标准部署。
  5. 选择 “应用拆分 ”以按 ServiceTierRequestServiceTierResponse 拆分值。

Azure 门户中资源指标页上优先级处理利用率的屏幕截图。

有关监视部署的详细信息,请参阅 Monitor Azure OpenAI

监控成本

可以通过筛选部署名称和计费标记,在 Azure 门户的成本分析页中查看优先级和标准请求的成本明细,如下所示:

  1. 转到 Azure 门户中的成本分析页。
  2. [可选]按资源进行筛选。
  3. 若要按部署名称进行筛选:为计费 标记> 添加筛选器,将 部署 设为值,然后选择您的部署名称。

Azure 门户中资源成本分析页上优先级处理利用率的屏幕截图。

有关优先级处理定价的信息,请参阅 Azure OpenAI 服务定价概述

在请求级别启用优先级处理

在请求级别启用优先级处理是 可选的。 聊天完成 API 和响应 API 都有一个可选属性 service_tier ,用于指定在提供请求时要使用的处理类型,如下所示:

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

使用 service_tier 特性替代部署级别设置。 service_tier 可以获取值 autodefault以及 priority

  • 如果未设置属性,则默认为 auto.

  • service_tier = auto 表示请求使用部署中配置的服务层。

  • service_tier = default 表示请求使用所选模型的标准定价和性能。

  • service_tier = priority 表示请求使用优先级处理服务层。

下表总结了服务层级如何根据部署级别和请求级设置来处理您的请求 service_tier

部署级别设置 请求级别设置 服务层处理的请求
默认 auto、default 标准
默认 priority 优先处理
priority 自动、优先级 优先处理
priority 默认 标准

延迟目标

主题 gpt-4.1, 2025-04-14
延迟目标值 99% > 每秒 80 个令牌*

* 按每 5 分钟为单位计算的 p50 请求延迟。

斜坡率限制

为了确保为所有客户实现一致的高性能,同时仍提供灵活的按需定价,优先处理会强制实施速率限制。 目前,速率限制定义为在不到 15 分钟内每分钟通过令牌将流量增加超过 50%。

降级条件

如果优先级处理性能下降,并且客户的流量过快上升,服务可能会将某些优先级请求降级到标准处理。 服务对通过标准服务层级处理的请求按标准费率进行计费。 这些请求不符合优先级处理延迟目标的条件。 标准服务层处理的请求会在 service_tier = default 响应中出现。

小窍门

如果遇到速率限制,可以考虑购买 PTU 作为优先处理的替代方案,或是同时选择两者。

API 支持

API 版本
最新支持的预览版 API 版本: 2025-10-01-preview