你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Microsoft Foundry 模型中的 Azure OpenAI 配额和限制

注释

本文档引用 Microsoft Foundry （经典）门户。

🔍 查看 Microsoft Foundry （new）文档，了解新门户。

本文包含有关 Azure OpenAI 配额和限制的快速参考和详细说明。

配额范围

不会在租户级别强制执行配额和限制。而是将配额限制的最高级别限定在 Azure 订阅级别。

区域配额分配

每分钟的令牌数（TPM）和每分钟请求数（RPM）的限制被定义为按区域、按订阅以及按模型或部署类型。

例如，如果gpt-4.1列出全局标准模型，配额为 500 万 TPM 和 5,000 RPM，则每个可用模型或部署类型的区域都有自己的专用配额池，每个 Azure 订阅的配额池为该数量。在单个 Azure 订阅中，只要资源和模型部署分布在多个区域，就可以对给定的模型和部署类型使用更大的 TPM 和 RPM 配额。

配额与限制参考

以下部分提供了适用于 Azure OpenAI 的默认配额和限制的快速指南：

限制名称	限制值
每个区域、每个 Azure 订阅的 Azure OpenAI 资源	30.
默认 DALL-E 2 配额限制	2 个并发请求。
默认 DALL-E 3 配额限制	2 个容量单位（每分钟 6 个请求）。
默认 GPT-image-1 配额限制	2 个容量单位（每分钟 6 个请求）。
默认 Sora 配额限制	每分钟 60 个请求。
默认Sora 2配额限制	2 个并行任务
默认语音转文本音频 API 配额限制	每分钟 3 个请求。
每个请求的最大提示令牌数	每个模型不同。有关详细信息，请参阅 Azure OpenAI 模型。
每个资源的最大标准部署数	32.
最大微调模型部署	5
每个资源的训练作业总数	100.
每个资源可同时运行的训练作业最大数量	1.
队列中的最大训练作业数	20.
每个资源的最大文件数（优化）	50.
每个资源的所有文件的总大小（优调）	1 GB。
训练作业的最长时间（若超出则作业失败）	720 小时。
最大训练作业大小 `(tokens in training file) x (# of epochs)`	20 亿。
每次上传的所有文件的最大大小（数据上的 Azure OpenAI）	16 MB。
数组中具有 `/embeddings` 的最大输入数	2,048.
最大消息数`/chat/completions`	2,048.
最大数量的`/chat/completions`函数	128.
最大工具数`/chat completions`	128.
每个部署预配的吞吐量单位数上限	100,000.
每个助理或线程的最大文件数	使用 API 或 Microsoft Foundry 门户时为 10,000。
助手和微调的最大文件大小	512 MB 可通过 Foundry 门户获取 200 MB。
每个资源的最大文件上传请求数	每秒 30 个请求。
助手的所有上传文件的最大大小	200 GB。
助手令牌限制	限制为 2,000,000 个令牌。
`GPT-4o` 以及 `GPT-4.1` 每个请求的最大图像数（消息数组或对话历史记录中的图像数）	50.
`GPT-4` `vision-preview` 和 `GPT-4turbo-2024-04-09` 默认的最大令牌	16. 增加 `max_tokens` 参数值以避免响应被截断。 `GPT-4o` 最大令牌默认为 4,096。
API 请求中自定义标头的最大数目¹	10.
消息字符限制	1,048,576.
音频文件的消息大小	20 MB。

¹ 我们的当前 API 最多允许 10 个自定义标头，这些标头通过管道传递并返回。某些客户现在超过此标头计数，这会导致 HTTP 431 错误。除了减少标头量之外，此错误没有其他解决方案。在未来的 API 版本中，我们不会传递自定义标头。我们建议客户在未来的系统体系结构中不依赖于自定义标头。

注释

配额限制可能会更改。

GPT-5.1 系列

型号	部署类型	默认 RPM	默认 TPM	企业和 MCA-E RPM	企业和 MCA-E TPM
`gpt-5.1`	数据区标准	3,000	300,000	30,000	3,000,000
`gpt-5.1`	GlobalStandard	10,000	1,000,000	100,000	1000万
`gpt-5.1-chat`	GlobalStandard	10,000	1,000,000	50,000	5,000,000
`gpt-5.1-codex`	GlobalStandard	1,000	1,000,000	10,000	1000万
`gpt-5.1-codex-mini`	GlobalStandard	1,000	1,000,000	10,000	1000万
`gpt-5.1-codex-max`	GlobalStandard	10,000	1,000,000	100,000	1000万

GPT-5 系列

型号	部署类型	默认 RPM	默认 TPM	企业和 MCA-E RPM	企业和 MCA-E TPM
`gpt-5`	数据区标准	3,000	300,000	30,000	3,000,000
`gpt-5`	GlobalStandard	10,000	1,000,000	100,000	1000万
`gpt-5-chat`	GlobalStandard	1,000	1,000,000	5,000	5,000,000
`gpt-5-mini`	数据区标准	300	300,000	3,000	3,000,000
`gpt-5-mini`	GlobalStandard	1,000	1,000,000	10,000	1000万
`gpt-5-nano`	数据区标准	2,000	2,000,000	50,000	五千万元
`gpt-5-nano`	GlobalStandard	5,000	5,000,000	150,000	150,000,000
`gpt-5-codex`	GlobalStandard	1,000	1,000,000	10,000	1000万
`gpt-5-pro`	GlobalStandard	1,600	160,000	16,000	1,600,000

模型路由器速率限制

型号	部署类型	默认 RPM	默认 TPM	企业和 MCA-E RPM	企业和 MCA-E TPM
`model-router` `(2025-11-18)`	数据区标准	150	150,000	300	300,000
`model-router` `(2025-11-18)`	GlobalStandard	250	250,000	400	400,000

批次限制

限制名称	限制值
每个资源的最大文件数	500
最大输入文件大小	200 MB
每个文件的最大请求数	100,000

批处理配额

该表展示了批次配额限制。全局批处理的配额值以入队令牌表示。提交文件以进行批处理时，将计算文件中的令牌数。在批处理作业达到终端状态之前，这些令牌将计入总入队令牌限制。

全局批处理

型号	企业和 MCA-E	违约	基于信用卡的每月订阅	MSDN 订阅	面向学生的 Azure 免费试用版
`gpt-4.1`	5B	200M	50M	90K	无
`gpt-4.1 mini`	15B	1B	50M	90K	无
`gpt-4.1-nano`	15B	1B	50M	90K	无
`gpt-4o`	5B	200M	50M	90K	无
`gpt-4o-mini`	15B	1B	50M	90K	无
`gpt-4-turbo`	300MB	80M	40M	90K	无
`gpt-4`	150兆	30M	5M	100K	无
`gpt-35-turbo`	10B	1B	100兆字节	2M	50K
`o3-mini`	15B	1B	50M	90K	无
`o4-mini`	15B	1B	50M	90K	无
`gpt-5`	5B	200M	50M	90K	无

B = 十亿 | M = 百万 | K = 千

数据区域批处理

型号	企业和 MCA-E	违约	基于信用卡的每月订阅	MSDN 订阅	面向学生的 Azure 免费试用版
`gpt-4.1`	500M	30M	30M	90K	无
`gpt-4.1-mini`	15亿	100兆字节	50M	90K	无
`gpt-4o`	500M	30M	30M	90K	无
`gpt-4o-mini`	15亿	100兆字节	50M	90K	无
`o3-mini`	15亿	100兆字节	50M	90K	无
`gpt-5`	5B	200M	50M	90K	无

gpt-oss

型号	每分钟标记数 (TPM)	每分钟请求数（RPM）
`gpt-oss-120b`	5百万	5公里

GPT-4 速率限制

GPT-4.5 全球标准预览版

型号	层	每分钟的令牌配额限制	每分钟请求数
`gpt-4.5`	企业和 MCA-E	200K	200
`gpt-4.5`	违约	150K	150

GPT-4.1 系列全局标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4.1` (2025-04-14)	企业和 MCA-E	5M	5K
`gpt-4.1` (2025-04-14)	违约	一百万	1K
`gpt-4.1-nano` (2025-04-14)	企业和 MCA-E	150兆	150K
`gpt-4.1-nano` (2025-04-14)	违约	5M	5K
`gpt-4.1-mini` (2025-04-14)	企业和 MCA-E	150兆	150K
`gpt-4.1-mini` (2025-04-14)	违约	5M	5K

GPT-4.1 系列数据区域标准版

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4.1` (2025-04-14)	企业和 MCA-E	2M	2K
`gpt-4.1` (2025-04-14)	违约	300K	300
`gpt-4.1-nano` (2025-04-14)	企业和 MCA-E	50M	50K
`gpt-4.1-nano` (2025-04-14)	违约	2M	2K
`gpt-4.1-mini` (2025-04-14)	企业和 MCA-E	50M	50K
`gpt-4.1-mini` (2025-04-14)	违约	2M	2K

GPT-4 Turbo

gpt-4 （turbo-2024-04-09）的速率限制层为某些客户类型设定了更高的限制。

型号	层	每分钟的令牌配额限制	每分钟请求数
`gpt-4` （turbo-2024-04-09）	企业和 MCA-E	2M	12K
`gpt-4` （turbo-2024-04-09）	违约	450K	2.7K

computer-use-preview 全球标准速率限制

型号	层	每分钟的令牌配额限制	每分钟请求数
`computer-use-preview`	企业和 MCA-E	30M	300K
`computer-use-preview`	违约	450K	4.5K

o 系列速率限制

重要

配额每分钟请求数与每分钟令牌的比率可能因模型而异。在以编程方式部署模型或请求配额增加时，您无法分别对每分钟的令牌数和请求数进行精细的独立控制。配额按容量单位分配，每分钟有相应的请求量和每分钟令牌数。

型号	能力	每分钟请求数（RPM）	每分钟标记数 (TPM)
较旧的聊天模型	1 个单位	6 转速	每分钟千次（TPM）
`o1` 和 `o1-preview`	1 个单位	1 转速 (RPM)	6,000 每分钟交易量（TPM）
`o3`	1 个单位	1 转速 (RPM)	每分钟千次（TPM）
`o4-mini`	1 个单位	1 转速 (RPM)	每分钟千次（TPM）
`o3-mini`	1 个单位	1 转速 (RPM)	10,000 TPM
`o1-mini`	1 个单位	1 转速 (RPM)	10,000 TPM
`o3-pro`	1 个单位	1 转速 (RPM)	10,000 TPM

此概念对于编程模型部署非常重要，因为 RPM 与 TPM 比率的更改可能会导致意外分配配额错误。

o 系列全局标准

型号	层	每分钟的令牌配额限制	每分钟请求数
`codex-mini`	企业和 MCA-E	10M	10K
`o3-pro`	企业和 MCA-E	16M	1.6K
`o4-mini`	企业和 MCA-E	10M	10K
`o3`	企业和 MCA-E	10M	10K
`o3-mini`	企业和 MCA-E	50M	5K
`o1` 和 `o1-preview`	企业和 MCA-E	30M	5K
`o1-mini`	企业和 MCA-E	50M	5K
`codex-mini`	违约	一百万	1K
`o3-pro`	违约	160万	160
`o4-mini`	违约	一百万	1K
`o3`	违约	一百万	1K
`o3-mini`	违约	5M	500
`o1` 和 `o1-preview`	违约	3M	500
`o1-mini`	违约	5M	500

O 系列数据区标准

型号	层	每分钟的令牌配额限制	每分钟请求数
`o3`	违约	10M	10K
`o4-mini`	违约	10M	10K
`o3-mini`	企业和 MCA-E	20M	2K
`o3-mini`	违约	2M	200
`o1`	企业和 MCA-E	6M	1K
`o1`	违约	600K	100

o1-preview 和 o1-mini 标准版

型号	层	每分钟的令牌配额限制	每分钟请求数
`o1-preview`	企业和 MCA-E	600K	100
`o1-mini`	企业和 MCA-E	一百万	100
`o1-preview`	违约	300K	50
`o1-mini`	违约	500K	50

gpt-4o 速率限制

gpt-4o 和 gpt-4o-mini 提供对某些客户类型限制更高的速率限制层。

gpt-4o 全局标准

型号	层	每分钟的令牌配额限制	每分钟请求数
`gpt-4o`	企业和 MCA-E	30M	18万
`gpt-4o-mini`	企业和 MCA-E	150兆	150万
`gpt-4o`	违约	450K	2.7K
`gpt-4o-mini`	违约	2M	12K

gpt-4o 数据区域标准

型号	层	每分钟的令牌配额限制	每分钟请求数
`gpt-4o`	企业和 MCA-E	10M	60K
`gpt-4o-mini`	企业和 MCA-E	20M	120K
`gpt-4o`	违约	300K	1.8K
`gpt-4o-mini`	违约	一百万	6K

gpt-4o Standard

型号	层	每分钟的令牌配额限制	每分钟请求数
`gpt-4o`	企业和 MCA-E	一百万	6K
`gpt-4o-mini`	企业和 MCA-E	2M	12K
`gpt-4o`	违约	150K	900
`gpt-4o-mini`	违约	450K	2.7K

gpt-4o 音频

型号	层	每分钟的令牌配额限制	每分钟请求数
`gpt-4o-audio-preview`	违约	450K	1K
`gpt-4o-realtime-preview`	违约	80万	1K
`gpt-4o-mini-audio-preview`	违约	2M	1K
`gpt-4o-mini-realtime-preview`	违约	80万	1K
`gpt-audio`	违约	100K	30
`gpt-audio-mini`	违约	100K	30
`gpt-realtime`	违约	100K	100
`gpt-realtime-mini`	违约	100K	100

GPT-image-1 速率限制

GPT-image-1 全球标准

型号	层	每分钟的令牌配额限制	每分钟请求数
`gpt-image-1`	企业和 MCA-E	无	60
`gpt-image-1`	违约	无	18
`gpt-image-1-mini`	Low	无	36
`gpt-image-1-mini`	中等	无	108
`gpt-image-1-mini`	High	无	360

使用级别

全局标准部署使用 Azure 的全局基础结构。他们动态地将客户流量路由到具有最佳可用性的数据中心，以满足客户的推理请求。同样，数据区域标准部署允许使用 Azure 的全局基础结构，以动态将流量路由到Microsoft定义的数据区域中的数据中心，并为每个请求提供最佳可用性。这种实践为流量级别在低至中等的客户提供更为稳定的一致性延迟。持续高使用量级别的客户可能会发现响应延迟的可变性更大。

Azure OpenAI 使用层旨在为大多数流量低到中等级别的客户提供一致的性能。每个使用层都定义了在可预测的延迟下可以达到的最大吞吐量（每分钟的令牌数）。当使用量保留在分配的层内时，延迟将保持稳定，响应时间是一致的。

如果超出使用层，会发生什么情况？

如果请求吞吐量超过使用层（尤其是在高需求期间），则响应延迟可能会显著增加。
延迟可能会有所不同，在某些情况下，可能比您在使用层内操作时高出两倍以上。
对于持续使用率较高或流量突发模式的客户而言，这种可变性最为明显。

如果超出您的使用层级，建议采取的措施

如果遇到 429 个错误或注意到延迟可变性增加，应执行以下作：

请求增加配额：访问 Azure 门户以请求更高的订阅配额。
请考虑升级到高级套餐 (PTU)：对于延迟关键型或高流量工作负载，请升级到预配吞吐量单位(PTU)。 PTU 提供专用资源、保证的容量和可预测的延迟，即使在大规模范围内也是如此。这是需要一致性能的任务关键型应用程序的最佳选择。
监视使用情况：定期查看 Azure 门户中的使用情况指标，以确保在层限制内运行。根据需要调整工作负荷或部署策略。

使用限制确定使用水平，超过该水平后，客户可能会看到更大的响应延迟变动。每个模型都定义了客户的使用情况。它是给定租户在所有区域和所有订阅中的所有部署中消耗的令牌总数。

注释

使用层仅适用于标准、数据区域标准和全局标准部署类型。使用层不适用于全局批处理和预配的吞吐量部署。

全局标准、数据区标准和标准

型号	每月使用等级
`gpt-5`	320 亿个令牌
`gpt-5-mini`	1600 亿个令牌
`gpt-5-nano`	8000 亿个令牌
`gpt-5-chat`	320 亿个令牌
`gpt-4` + `gpt-4-32k`（所有版本）	60 亿个令牌
`gpt-4o`	120 亿个令牌
`gpt-4o-mini`	850 亿个令牌
`o3-mini`	500 亿个令牌
`o1`	40 亿个令牌
`o4-mini`	500 亿个令牌
`o3`	50 亿个令牌
`gpt-4.1`	300 亿个令牌
`gpt-4.1-mini`	1500 亿个令牌
`gpt-4.1-nano`	5500 亿个令牌

其他套餐类型

如果 Azure 订阅链接到某些产品/服务类型，则最大配额值低于上表中指示的值。

GPT-5-pro 配额仅适用于 MCA-E 和默认配额订阅。默认情况下，所有其他产品/服务类型对此模型具有零配额。
对于不享有 MCA-E 或默认配额访问权限的所有提供类型，GPT-5 推理模型配额为 20K TPM 和 200 RPM。对于 GPT-5-chat，限制为每分钟 50,000 个 token 和每分钟 50 个请求。
某些产品/服务类型仅限于美国东部 2 和瑞典中部地区的全球标准部署。

层	每分钟的令牌配额限制
`Azure for Students`	1K （所有模型）异常 o-series、GPT-4.1 与 GPT 4.5 预览：0
`MSDN`	GPT-4o-mini：200K GPT 3.5 涡轮增压系列：200K GPT-4 系列：50K computer-use-preview: 8K gpt-4o-realtime-preview: 1K o-series：0 GPT 4.5 预览版：0 GPT-4.1：50K GPT-4.1-nano：200K
`Standard`& `Pay-as-you-go`	GPT-4o-mini：200K GPT 3.5 涡轮增压系列：200K GPT-4 系列：50K computer-use-preview：30K o-series：0 GPT 4.5 预览版：0 GPT-4.1：50K GPT-4.1-nano：200K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini：200K GPT 3.5 涡轮增压系列：200K GPT-4 系列：50K
`CSP Integration Sandbox` ^*	所有模型：0
`Lightweight trial` `Free trials` `Azure Pass`	所有模型：0

^*此限制仅适用于少量旧版 CSP 沙盒订阅。使用以下查询确定与你的订阅关联的 quotaId 值是什么。

若要确定与订阅关联的产品/服务类型，可以检查你的 quotaId 值。如果此表中未列出你的 quotaId 值，则订阅符合默认配额。

休息
CLI

请参阅 API 参考。

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

输出

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

配额分配/套餐类型	订阅配额 ID
企业和 MCA-E	`EnterpriseAgreement_2014-09-01`
即用即付	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
CSP 集成沙盒	`CSPDEVTEST_2018-05-01`
面向学生的 Azure	`AzureForStudents_2018-01-01`
免费试用	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
违约	此表中未列出的任何配额编号

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题，可以遵循以下方法：

在应用程序中实现重试逻辑
避免工作负载的急剧变化。逐步增大工作负载。
测试不同负载增加模式。
增加分配给部署的配额。如有必要，从另一个部署中移动配额。

请求增加配额

可以通过配额增加请求表单提交配额增加请求。由于需求较高，会接受配额增加请求，并按收到请求的顺序进行填写。优先考虑使用现有配额分配流量的客户。如果不符合此条件，可能会拒绝你的请求。

可以提交服务请求以获取其他速率限制。

区域配额容量限制

可以在 Foundry 门户中按订阅的区域查看配额可用性。

若要按区域查看特定模型或版本的配额容量，可以查询订阅的容量 API 。请提供subscriptionId、model_name和model_version，API将返回该型号在您的订阅中所有区域和部署类型的可用容量。

注释

目前，Foundry 门户和容量 API 都返回已停用且不再可用的模型的配额/容量信息。