你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
使用 Microsoft Foundry 中的 AI 网关在项目范围内强制实施每分钟令牌数(TPM)速率限制和模型部署的总令牌配额。 此集成在后台使用 Azure API 管理,并对每个项目施加限制,以防止令牌消耗失控,并与组织防护措施对齐。 本次发布仅包括令牌速率限制和配额强制措施。 可以在 Foundry 门户中配置所有设置。
先决条件
- Azure 订阅(免费创建一个),并有权创建或重复使用 Azure API 管理 (APIM) 实例。
- 访问目标 Foundry 资源的 Foundry 门户(管理控制台)。
- APIM 中 AI 网关功能的参考资料。
- 决定是创建专用 APIM 实例还是重复使用现有 APIM 实例。
了解 AI 网关的应用范围
AI 网关位于客户端和模型部署之间。 所有请求在关联后会流经 APIM 实例。 限制在项目级别应用(每个项目可以有自己的 TPM 和配额设置)。 此版本支持的功能仅包含 TPM 速率限制和令牌配额限制。 不会强制实施其他策略类型。
选择 API 管理使用模型
创建新的 AI 网关时,需要决定是否创建新的 APIM 实例(独立治理、可预测的使用边界),还是重复使用现有的 APIM 实例(集中式管理、共享成本)。 可以使用与 Foundry 资源位于同一 Azure 区域中的任何现有 APIM 实例。
从 Foundry 门户流创建新实例时,SKU 默认为基本 v2。 请参阅 API 管理定价 ,详细了解 API 管理服务的相关成本和定价。
创建 AI 网关
按照 Foundry 门户中的步骤为资源启用 AI 网关。
- 登录到 Microsoft Foundry。 确保 New Foundry 开关处于打开状态。 这些步骤适用于 Foundry(新)。
- 选择 操作>管理控制台。
- 打开 “AI 网关 ”选项卡。
- 选择 “添加 AI 网关”。
- 选择要连接到网关的 Foundry 资源。
- 选择“ 新建 ”或 “使用现有 APIM”。
- 如果新建,请查看 基本 v2 SKU 限制和试用成本详细信息。
- 命名网关,然后选择“ 添加 ”以创建或关联 APIM 实例。
- 验证网关状态是否在预配完成后显示 “已启用 ”。
配置令牌限制
可以为项目中的特定模型部署配置令牌限制。
- 从 AI 网关 网关列表中选择要使用的网关。
- 在显示的网关详细信息窗格中选择 令牌管理 。
- 选择 “+ 添加限制 ”,为模型部署创建新限制。
- 选择要限制的项目和部署,然后输入限制值(每分钟令牌)。
- 选择“创建”以保存所做更改。
预期结果:超出 TPM 阈值的后续请求接收速率限制响应。 超过配额的请求会生成超出配额的响应,指示429 Too Many Requests如果超出速率限制,或者403 Forbidden如果总令牌配额已用尽。
配额窗口行为
令牌限制具有两个互补性强制维度:
每分钟令牌数 (TPM) 速率限制:在一个滚动的 60 秒窗口中进行评估。 聚合每个请求的令牌使用情况,滚动窗口总数超过配置的 TPM 值后,该窗口中的后续请求将接收
429 Too Many Requests响应,直到使用量低于阈值。令牌配额总计:总计在定义的配额窗口(例如,每日或每月分配)中消耗的令牌数。 当累积使用量达到配置的配额时,在窗口重置之前,会收到
403 Forbidden进一步的请求。 配额计数器会在下一个时间窗口边界的开头自动重置。
在窗口期内调整配额或 TPM 值只会影响后续的强制措施决定;不会回溯清除已消耗的令牌。 若要在自然窗口边界之前有效地“重置”配额,请暂时增加配额值或删除并重新创建限制。
有关这些策略功能的更多详细信息,请参阅 APIM 和 API 管理访问限制策略中的 AI 网关功能。
验证执行
- 使用项目的网关 URL 和密钥将测试请求发送到模型部署终结点。
- 逐渐增加请求频率,直到 TPM 限制触发。
- 跟踪累积令牌数,直到达到配额触发条件。
- 验证 TPM 超出后是否返回速率限制错误,以及在令牌分配总量用尽后是否显示配额错误。
成功条件:
- 超过 TPM 后,会出现速率限制的响应。
- 总令牌分配用尽后,会出现配额错误。
调整限制
- 返回到项目 AI 网关 设置。
- 修改 TPM 或配额值。
- 保存。新限制将立即应用于后续请求。
治理情境
将 AI 网关用于:
- 多团队令牌管理(防止一个项目垄断容量)。
- 通过限制聚合使用量来控制成本。
- 受监管工作负载的符合性边界(强制实施可预测的使用上限)。
Troubleshooting
| 問题 | 可能的原因 | Action |
|---|---|---|
| APIM 实例未显示 | 预配延迟 | 几分钟后刷新。 |
| 限制并未被执行 | 配置错误或项目未链接 | 重新打开设置;确认强制开关已启用。 确认是否为项目启用了 AI 网关,以及是否配置了正确的限制。 |
| 启用后高延迟 | APIM 冷启动或区域不匹配 | 检查 APIM 区域与资源区域是否一致。 直接调用模型,并将结果与通过 AI 网关代理的调用进行比较,以确定性能问题是否与网关相关。 |
如果管理控制台速度较慢,请在短暂间隔后重试。
局限性
- 只能通过 Foundry 门户配置设置;尚不支持 CLI、ARM 或 API。
- 专用 APIM 实现治理隔离,而共享 APIM 集中管理操作。
- 令牌配额的强制执行是在项目范围内进行的,资源级的全局限制不由 AI 网关管理。
清理资源
如果为此创建了专用 APIM 实例:
- 确认没有其他工作负荷依赖于它。
- 在关联的 Foundry 资源中为所有项目禁用 AI 网关。
- 在 Azure 门户中删除链接的资源。
- 删除与 Azure 门户中 AI 网关同名的 APIM 实例(如果未用于任何其他目的)。