你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
注释
本文档指的是 Microsoft Foundry(新) 门户网站。
Microsoft Foundry 的模型路由器是一种可部署的 AI 聊天模型,它选择最佳大型语言模型(LLM),以实时响应提示。 它使用不同的预先存在的模型来提供高性能并节省计算成本,全部在一个模型部署中。 若要详细了解模型路由器的工作原理、其优点和限制,请参阅模型路由器概念指南。
通过聊天补全 API 使用模型路由器,就像使用单一基础模型(例如 GPT-4)一样。 按照聊天补全指南中的相同步骤操作。
小窍门
Microsoft Foundry (new) 门户为模型路由器提供了增强的配置选项。 切换到 Microsoft Foundry (新) 文档 以查看最新功能。
部署模型路由器模型
模型路由器打包为你部署的单个 Foundry 模型。 请按照资源部署指南中的步骤进行操作。
在“创建新部署”中,在model-router列表中找到并选择它。
在模型目录中,在model-router列表中找到并选择它。 为均衡路由模式和所有受支持模型之间的路由选择“默认设置”。 若要启用更多配置选项,请选择“自定义设置 ”选项。
注释
部署设置适用于模型路由器使用的所有基础聊天模型。
- 不要单独部署基础聊天模型。 模型路由器独立于其他已部署的模型工作。
- 部署模型路由器模型或稍后应用筛选器时,请选择内容筛选器。 内容筛选器适用于传入和传出模型路由器的所有内容;不要为每个基础聊天模型设置内容筛选器。
- “每分钟令牌数速率限制”适用于传入和传出模型路由器的所有活动;不要为每个基础聊天模型设置速率限制。##在聊天中使用模型路由器
选择路由模式
注释
对路由模式的更改最多可能需要五分钟才能生效。
使用 “路由模式 ”下拉列表选择路由配置文件。 这会设置部署的路由逻辑。
选择模型子集
注释
对模型子集的更改最多可能需要五分钟才能生效。
最新版本的模型路由器支持自定义子集:可以指定要包含在路由决策中的基础模型。 这样可以更好地控制成本、合规性和性能特征。
在模型路由器部署窗格中,选择“ 路由到模型子集”。 然后选择要启用的基础模型。
重要
若要在模型路由器部署中包含Anthropic(Claude)提供的模型,需要自行将其部署到Foundry资源。 请参阅 部署和使用 Claude 模型。
默认情况下,后续引入的新模型将被排除在外,直到明确添加为止。
使用完成 API 测试模型路由器
可以通过 聊天完成 API 使用模型路由器,就像使用其他 OpenAI 聊天模型一样。 将 model 参数设置为你的模型路由器部署的名称,并将 messages 参数设置为要发送到模型的消息。
测试场中的模型路由器
在 Foundry 门户中,可以在“模型 + 终结点”页上前往你的模型路由器部署,然后选择对应路由器以进入模型操场。 在操场中,输入消息并查看模型的响应。 每个响应会显示路由器选择的基础模型。
重要
可以将和Temperature参数设置为Top_P首选值(请参阅概念指南),但请注意,推理模型(o 系列)不支持这些参数。 如果模型路由器为提示选择推理模型,它将忽略 Temperature 和 Top_P 输入参数。
对于 o 系列模型,参数 stop、presence_penalty、frequency_penalty、logit_bias 和 logprobs 同样被删除,但在其他情况下使用。
重要
从2025-11-18版本开始,模型路由器现在支持reasoning_effort参数(请参阅推理模型指南)。 如果模型路由器为您的提示选择一个推理模型,它将和基础模型一起使用您的reasoning_effort输入值。
将模型路由器连接到 Foundry 代理
如果在 Foundry 中创建 AI 智能体,则可以连接模型路由器部署,以用作智能体的基础模型。 从代理实验场中的模型下拉菜单中选择它。 代理将具有为其配置的所有工具和说明,但处理其响应的基础模型将由模型路由器选择。
重要
如果在流中使用代理服务工具,则只会使用 OpenAI 模型进行路由。
输出格式
从模型路由器模型收到的 JSON 响应与标准聊天完成 API 响应相同。 请注意,该 "model" 字段显示选择了哪个基础模型来响应提示。
{
"choices": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"protected_material_code": {
"detected": "False",
"filtered": "False"
},
"protected_material_text": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"finish_reason": "stop",
"index": 0,
"logprobs": "None",
"message": {
"content": "I'm doing well, thank you! How can I assist you today?",
"refusal": "None",
"role": "assistant"
}
}
],
"created": 1745308617,
"id": "xxxx-yyyy-zzzz",
"model": "gpt-4.1-nano-2025-04-14",
"object": "chat.completion",
"prompt_filter_results": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"jailbreak": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"prompt_index": 0
}
],
"system_fingerprint": "xxxx",
"usage": {
"completion_tokens": 15,
"completion_tokens_details": {
"accepted_prediction_tokens": 0,
"audio_tokens": 0,
"reasoning_tokens": 0,
"rejected_prediction_tokens": 0
},
"prompt_tokens": 21,
"prompt_tokens_details": {
"audio_tokens": 0,
"cached_tokens": 0
},
"total_tokens": 36
}
}
监视模型路由器指标
监控性能
在 Azure 门户中的 Azure Monitor (AzMon) 中监视模型路由器部署的性能。
- 在 Azure 门户中转到 Azure OpenAI 资源的“监视”“指标”页>。
- 按模型路由器模型的部署名称进行筛选。
- 根据需要按基础模型拆分指标。
监控成本
可以监视模型路由器的成本,这是基础模型产生的成本之和。
- 访问 Azure 门户中 的“资源管理 ->成本分析 ”页。
- 如果需要,请根据 Azure 资源进行筛选。
- 然后,按部署名称进行筛选:按“标记”进行筛选,选择 “部署 ”作为标记的类型,然后选择模型路由器部署名称作为值。