你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Microsoft Foundry 的模型路由器

注释

本文档引用 Microsoft Foundry （经典）门户。

🔄 如果你使用的是新门户，请切换到 Microsoft Foundry（新）文档。

注释

本文档指的是 Microsoft Foundry（新）门户网站。

模型路由器是经过训练的语言模型，可实时将提示路由到最合适的大型语言模型（LLM）。部署模型路由器就像其他任何 Foundry 模型一样。因此，它在节省成本、降低延迟和提高响应能力的同时提供高性能，同时保持可比质量，全部打包为单个模型部署。

注释

除了 Claude 模型之外，无需单独部署支持的 LLM 以用于模型路由器。若要将模型路由器用于 Claude 模型，请先从模型目录中部署它们。如果选择了这些部署进行路由，则模型路由器将调用它们。

小窍门

Microsoft Foundry （new）门户为模型路由器提供了增强的配置选项。切换到 Microsoft Foundry （新）文档以查看最新功能。

模型路由器的工作原理

作为训练有素的语言模型，模型路由器在实时应用智能分析您的提示，包括提示的复杂性、推理、任务类型及其他特性。它不会存储提示。此外，它仅根据访问和部署类型路由到符合条件的模型，从而遵循数据区域边界。

在默认 Balanced 模式下，它考虑在较小的质量范围内的所有基础模型，例如 1-2% 与该提示的最高质量模型相比，并选取最经济高效的模型。
选择Cost路由模式时，它会考虑一个更大的质量范围（例如，相较于某提示的最高质量模型的 5-6% 范围），并选择最具性价比的模型。
Quality选择路由模式后，它会为提示选取质量最高的分级模型，忽略成本。

为什么使用模型路由器？

模型路由器优化成本和延迟，同时保持可比的质量。当模型足够用于任务时，会使用更小、更便宜的模型，但更大型且更昂贵的模型可用于更复杂的任务。此外，推理模型可用于需要复杂推理的任务，否则使用非推理模型。模型路由器提供单个部署和聊天体验，该体验结合了所有基础聊天模型的最佳功能。

2025-11-18最新版本添加了多项功能：

支持全局标准和数据区域标准部署。
添加了对新模型的支持：grok-4、grok-4-fast-reasoningDeepSeek-V3.1gpt-oss-120bLlama-4-Maverick-17B-128E-Instruct-FP8gpt-4ogpt-4o-mini、claude-haiku-4-5、、 claude-opus-4-1和。claude-sonnet-4-5
使用 路由模式 和 模型子集 选项快速部署或自定义部署。
路由模式：根据需要优化路由逻辑。支持的选项：Quality、、 CostBalanced （默认值）。
模型子集：选择首选模型以创建用于路由的模型子集。
支持代理方案，包括工具，以便现在可以在 Foundry 智能体服务中使用它。

版本控制

每个版本的模型路由器都与一组特定的基础模型及其版本相关联。此集是固定的 - 只有较新版本的模型路由器才能公开新的基础模型。

如果在部署步骤中选择 自动更新 （请参阅 “管理模型”），则当新版本可用时，模型路由器模型会自动更新。发生这种情况时，基础模型集也会更改，这可能会影响模型的整体性能和成本。

支持的基础模型

在 2025-11-18 版本中，模型路由器增加了 9 个新模型，包括 Anthropic 的 Claude、DeepSeek、Llama、Grok 模型，以支持总共 18 个模型，可用于路由你的提示。

注释

模型路由器版本	基础模型	基础模型版本
`2025-11-18`	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5-nano` `gpt-5-mini` `gpt-5` ¹ `gpt-5-chat` `Deepseek-v3.1` ² `gpt-oss-120b` ² `llama4-maverick-instruct` ² `grok-4` ² `grok-4-fast` ² `claude-haiku-4-5` ³ `claude-opus-4-1` ³ `claude-sonnet-4-5` ³	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07` 空值空值空值空值空值 `2024-11-20` `2024-07-18` `2025-10-01` `2025-08-05` `2025-09-29`
`2025-08-07`	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5` ¹ `gpt-5-mini` `gpt-5-nano` `gpt-5-chat`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07`
`2025-05-19`	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16`

¹需要注册。
²型号路由器支持正在预览阶段。
³模型路由器支持处于预览状态。需要部署模型以用于模型路由器。

路由模式

使用最新版本时，如果选择自定义部署，可以选择 路由模式 以优化质量或成本，同时保持基线性能级别。设置路由模式是可选的，如果未设置路由模式，则部署默认为模式 balanced 。

可用的路由模式：

模式	Description
平衡（默认值）	动态考虑成本和质量。非常适合通用用途
质量	优先考虑以确保最高准确性。最适合复杂的推理或关键输出
成本	优先考虑节省更多成本。适用于大量预算敏感型工作负荷

模型子集

最新版本的模型路由器支持模型子集：对于自定义部署，可以指定要包括在路由决策中的基础模型。这样可以更好地控制成本、合规性和性能特征。

当新的基本模型可用时，除非将它们显式添加到部署的包含列表中，否则它们不会包括在你的选择中。

局限性

资源限制

区域	支持的部署类型
美国东部 2	全局标准、数据区域标准
瑞典中部	全局标准、数据区域标准

另请参阅模型路由器的区域可用性和部署类型的 “模型 ”页。

速率限制

型号	部署类型	默认 RPM	默认 TPM	企业和 MCA-E RPM	企业和 MCA-E TPM
`model-router` `(2025-11-18)`	数据区标准	150	150,000	300	300,000
`model-router` `(2025-11-18)`	GlobalStandard	250	250,000	400	400,000

另请参阅配额与限制，以获取有关速率限制的信息。

若要克服上下文窗口和参数的限制，请使用模型子集功能选择支持所需属性的路由模型。

注释

“ 模型 ”页上列出的上下文窗口限制是最小基础模型的限制。其他基础模型与较大的上下文窗口兼容，这意味着仅当提示被路由到正确的模型时，具有较大上下文的 API 调用才会成功，否则调用将失败。若要缩短上下文窗口，可以执行以下作之一：

在将提示传递给模型之前汇总提示
将提示截断为更相关的部分
使用文档嵌入并让聊天模型检索相关部分：请参阅 Azure AI 搜索

模型路由器接受启用了视觉的聊天的图像输入（所有基础模型都可以接受图像输入），但路由决策仅基于文本输入。

模型路由器不处理音频输入。

计费信息

从 2025 年 11 月开始，模型路由器的输入提示使用量将按照定价页上列出的费率收费。

可以在 Azure 门户中监视模型路由器部署的成本。

后续步骤

如何使用模型路由器

反馈

此页面是否有帮助？

Last updated on 2025-12-13