你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
注释
本文档指的是 Microsoft Foundry(新) 门户网站。
模型路由器是经过训练的语言模型,可实时将提示路由到最合适的大型语言模型(LLM)。 部署模型路由器就像其他任何 Foundry 模型一样。 因此,它在节省成本、降低延迟和提高响应能力的同时提供高性能,同时保持可比质量,全部打包为单个模型部署。
注释
除了 Claude 模型之外,无需单独部署支持的 LLM 以用于模型路由器。 若要将模型路由器用于 Claude 模型,请先从模型目录中部署它们。 如果选择了这些部署进行路由,则模型路由器将调用它们。
小窍门
Microsoft Foundry (new) 门户为模型路由器提供了增强的配置选项。 切换到 Microsoft Foundry (新) 文档 以查看最新功能。
模型路由器的工作原理
作为训练有素的语言模型,模型路由器在实时应用智能分析您的提示,包括提示的复杂性、推理、任务类型及其他特性。 它不会存储提示。 此外,它仅根据访问和部署类型路由到符合条件的模型,从而遵循数据区域边界。
- 在默认
Balanced模式下,它考虑在较小的质量范围内的所有基础模型,例如 1-2% 与该提示的最高质量模型相比,并选取最经济高效的模型。 - 选择
Cost路由模式时,它会考虑一个更大的质量范围(例如,相较于某提示的最高质量模型的 5-6% 范围),并选择最具性价比的模型。 -
Quality选择路由模式后,它会为提示选取质量最高的分级模型,忽略成本。
为什么使用模型路由器?
模型路由器优化成本和延迟,同时保持可比的质量。 当模型足够用于任务时,会使用更小、更便宜的模型,但更大型且更昂贵的模型可用于更复杂的任务。 此外,推理模型可用于需要复杂推理的任务,否则使用非推理模型。 模型路由器提供单个部署和聊天体验,该体验结合了所有基础聊天模型的最佳功能。
2025-11-18最新版本添加了多项功能:
- 支持全局标准和数据区域标准部署。
- 添加了对新模型的支持:
grok-4、grok-4-fast-reasoningDeepSeek-V3.1gpt-oss-120bLlama-4-Maverick-17B-128E-Instruct-FP8gpt-4ogpt-4o-mini、claude-haiku-4-5、、claude-opus-4-1和。claude-sonnet-4-5 - 使用 路由模式 和 模型子集 选项快速部署或自定义部署。
-
路由模式:根据需要优化路由逻辑。 支持的选项:
Quality、、CostBalanced(默认值)。 - 模型子集:选择首选模型以创建用于路由的模型子集。
- 支持代理方案,包括工具,以便现在可以在 Foundry 智能体服务中使用它。
版本控制
每个版本的模型路由器都与一组特定的基础模型及其版本相关联。 此集是固定的 - 只有较新版本的模型路由器才能公开新的基础模型。
如果在部署步骤中选择 自动更新 (请参阅 “管理模型”),则当新版本可用时,模型路由器模型会自动更新。 发生这种情况时,基础模型集也会更改,这可能会影响模型的整体性能和成本。
支持的基础模型
在 2025-11-18 版本中,模型路由器增加了 9 个新模型,包括 Anthropic 的 Claude、DeepSeek、Llama、Grok 模型,以支持总共 18 个模型,可用于路由你的提示。
注释
除了 Claude 模型之外,无需单独部署支持的 LLM 以用于模型路由器。 若要将模型路由器用于 Claude 模型,请先从模型目录中部署它们。 如果选择了这些部署进行路由,则模型路由器将调用它们。
| 模型路由器版本 | 基础模型 | 基础模型版本 |
|---|---|---|
2025-11-18 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano gpt-5-mini gpt-5
1 gpt-5-chat Deepseek-v3.1
2 gpt-oss-120b
2 llama4-maverick-instruct
2 grok-4
2 grok-4-fast
2 claude-haiku-4-5
3 claude-opus-4-1
3 claude-sonnet-4-5
3 |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 空值 空值 空值 空值 空值 2024-11-20 2024-07-18 2025-10-01 2025-08-05 2025-09-29 |
2025-08-07 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
1 gpt-5-mini gpt-5-nano gpt-5-chat |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 |
2025-05-19 |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
|
2025-04-14 2025-04-14 2025-04-14 2025-04-16 |
- 1需要注册。
- 2型号路由器支持正在预览阶段。
- 3模型路由器支持处于预览状态。 需要部署模型以用于模型路由器。
路由模式
使用最新版本时,如果选择自定义部署,可以选择 路由模式 以优化质量或成本,同时保持基线性能级别。 设置路由模式是可选的,如果未设置路由模式,则部署默认为模式 balanced 。
可用的路由模式:
| 模式 | Description |
|---|---|
| 平衡(默认值) | 动态考虑成本和质量。 非常适合通用用途 |
| 质量 | 优先考虑以确保最高准确性。 最适合复杂的推理或关键输出 |
| 成本 | 优先考虑节省更多成本。 适用于大量预算敏感型工作负荷 |
模型子集
最新版本的模型路由器支持模型子集:对于自定义部署,可以指定要包括在路由决策中的基础模型。 这样可以更好地控制成本、合规性和性能特征。
当新的基本模型可用时,除非将它们显式添加到部署的包含列表中,否则它们不会包括在你的选择中。
局限性
资源限制
| 区域 | 支持的部署类型 |
|---|---|
| 美国东部 2 | 全局标准、数据区域标准 |
| 瑞典中部 | 全局标准、数据区域标准 |
另请参阅模型路由器的区域可用性和部署类型的 “模型 ”页。
速率限制
| 型号 | 部署类型 | 默认 RPM | 默认 TPM | 企业和 MCA-E RPM | 企业和 MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
数据区标准 | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250,000 | 400 | 400,000 |
另请参阅 配额与限制,以获取有关速率限制的信息。
若要克服上下文窗口和参数的限制,请使用模型子集功能选择支持所需属性的路由模型。
注释
“ 模型 ”页上列出的上下文窗口限制是最小基础模型的限制。 其他基础模型与较大的上下文窗口兼容,这意味着仅当提示被路由到正确的模型时,具有较大上下文的 API 调用才会成功,否则调用将失败。 若要缩短上下文窗口,可以执行以下作之一:
- 在将提示传递给模型之前汇总提示
- 将提示截断为更相关的部分
- 使用文档嵌入并让聊天模型检索相关部分:请参阅 Azure AI 搜索
模型路由器接受 启用了视觉的聊天 的图像输入(所有基础模型都可以接受图像输入),但路由决策仅基于文本输入。
模型路由器不处理音频输入。
计费信息
从 2025 年 11 月开始,模型路由器的输入提示使用量将按照定价页上列出的费率收费。
可以在 Azure 门户中监视模型路由器部署的成本。