你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure API 管理中的 AI 网关

适用于：所有 API 管理层级

Azure API 管理中的 AI 网关 是一组功能，可帮助你有效地管理 AI 后端。这些功能可帮助你管理、保护、缩放、监视和管理支持智能应用和代理的大型语言模型（LLM）部署、AI API 和模型上下文协议（MCP）服务器。

使用 AI 网关管理各种 AI 端点，包括：

Microsoft Foundry 和 Azure OpenAI 在 Microsoft Foundry 模型中的部署
Azure AI 模型推理 API 部署
远程 MCP 服务器和 A2A 代理 API
由非微软服务商托管的 OpenAI 兼容模型和终结点
自托管模型和终结点

Azure API 管理 AI 网关功能概述图。

注意

AI 网关（包括 MCP 服务器功能）扩展了 API 管理的现有 API 网关;这不是单独的产品/服务。相关的治理和开发人员功能位于 Azure API 中心。

为何使用 AI 网关？

组织中的 AI 采用涉及几个阶段：

定义要求并评估 AI 模型
构建需要访问 AI 模型和服务的 AI 应用和代理
将 AI 应用和后端实现和部署到生产环境

随着 AI 采用的成熟，尤其是在大型企业中，AI 网关有助于应对关键挑战，帮助：

对 AI 服务的访问权限进行身份验证和授权
跨多个 AI 终结点进行负载均衡
监视和记录 AI 交互
跨多个应用程序管理令牌使用情况和配额
为开发人员团队启用自助服务

交通中介和控制

借助 AI 网关，可以：

快速导入 OpenAI 兼容或直通 LLM 终结点并将其配置为 API
管理部署在 Microsoft Foundry 或提供商（如 Amazon Bedrock）中的模型
控制聊天完成、响应和实时 API
将现有的 REST API 公开为 MCP 服务器，并支持透传至 MCP 服务器
导入和管理 A2A 代理 API（预览版）

例如，若要载入部署在 Microsoft Foundry 或其他提供程序中的模型，API 管理提供了简化的向导，用于使用托管标识将架构导入并设置 AI 终结点的身份验证，从而无需手动配置。在同一个用户友好体验中，可以为 API 可伸缩性、安全性和可观测性预配置策略。

详细信息：

可伸缩性和性能

生成式 AI 服务的主要资源之一是令牌。 Microsoft Foundry 和其他提供程序以每分钟令牌 (TPM) 的形式为模型部署分配配额。可以在模型使用者之间分发这些令牌，例如公司内的不同应用程序、开发人员团队或部门。

如果单个应用连接到 AI 服务后端，则可以使用直接在模型部署上设置的 TPM 限制来管理令牌消耗。但是，当应用程序组合增长时，你可能有多个应用调用单个或多个 AI 服务终结点。这些终结点可以是即用即付或预配吞吐量单位（PTU）实例。需要确保一个应用不使用整个 TPM 配额，并阻止其他应用访问所需的后端。

令牌速率限制和配额

在 LLM API 上配置令牌限制策略，以根据 AI 服务令牌的使用来管理和强制实施每个 API 使用者的限制。使用此策略，可以在指定时间段内设置 TPM 限制或令牌配额，例如每小时、每日、每周、每月或每年。

限制 API 管理中的 Azure OpenAI 服务令牌的关系图。

此策略可灵活分配任何计数器密钥（例如订阅密钥、发起 IP 地址或通过策略表达式定义的任意密钥）基于令牌的限制。该策略还允许在 Azure API 管理端预先计算提示令牌，如果提示已超出限制，将对 AI 服务后端的不必要的请求降到最低。

以下基本示例演示如何设置每个订阅密钥 500 的 TPM 限制：

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

详细信息：

LLM 令牌限制策略

语义缓存

语义缓存是一种技术，它通过缓存先前提示的结果（完成）以及通过将提示的向量邻近度与以前的请求进行比较来重用它们，从而提高 LLM API 的性能。此方法可减少对 AI 服务后端发出的调用数，改善最终用户的响应时间，并有助于降低成本。

在 API 管理中，使用 Azure 托管 Redis 或其他与 RediSearch 兼容的外部缓存并载入 Azure API 管理来启用语义缓存。通过使用 Embeddings API，llm-semantic-cache-store 和 llm-semantic-cache-lookup 策略能够将语义相似的提示完成存储到缓存中并进行检索。此方法可确保重复使用完成，从而减少令牌消耗，并提高响应性能。

API 管理中的语义缓存关系图。

详细信息：

API 管理中的原生缩放功能

API 管理还提供内置缩放功能，以帮助网关处理大量对 AI API 的请求。这些功能包括自动或手动添加网关 缩放单元 ，以及为多区域部署添加区域网关。特定功能取决于 API 管理服务层。

详细信息：

注意

虽然 API 管理可以缩放网关容量，但还需要缩放流量并将其分发到 AI 后端，以适应增加的负载（请参阅 “复原” 部分）。例如，若要在多区域配置中利用系统的地理分布，应在 API 管理网关所在的同一区域中部署后端 AI 服务。

安全和安全

AI 网关可保护和控制对 AI API 的访问。借助 AI 网关，可以：

使用托管标识向 Azure AI 服务进行身份验证，因此无需 API 密钥进行身份验证
使用 API 管理的凭据管理器为 AI 应用和代理配置 OAuth 授权以访问 API 或 MCP 服务器
通过使用 Azure AI 内容安全，应用策略来自动审查 LLM 提示

API 管理中的内容安全策略示意图。

详细信息：

复原能力

构建智能应用程序时，一个难题是确保应用程序能够应对后端故障，并能够承受高负载。通过在 Azure API 管理中使用后端配置 LLM 终结点，可以跨后端均衡负载。还可以定义断路器规则，以在请求不响应时停止将请求转发到 AI 服务后端。

负载均衡器

后端负载均衡器支持轮询、加权、基于优先级和会话感知的负载均衡。可以定义满足特定要求的负载分发策略。例如，在负载均衡器配置中定义优先级，以确保特定 Microsoft Foundry 终结点（尤其是购买为 PTU 实例的终结点）的最佳利用率。

在 API 管理中使用后端负载均衡的关系图。

断路器

后端断路器具有动态行程持续时间，并应用后端提供的 Retry-After 标头中的值。此功能可确保后端的精确和及时恢复，最大限度地利用优先级后端。

在 API 管理中使用后端断路器的关系图。

详细信息：

API 管理后端

可观测性和治理

API 管理提供全面的监视和分析功能，用于跟踪令牌使用模式、优化成本、确保符合 AI 治理策略以及排查 AI API 问题。使用这些功能可以：

将提示和完成记录到 Azure Monitor
在 Application Insights 中跟踪每个使用者的令牌指标
查看内置监视仪表板
使用自定义表达式配置策略
跨应用程序管理令牌配额

例如，可以使用 llm-emit-token-metric 策略发出令牌指标，并添加可用于在 Azure Monitor 中筛选指标的自定义维度。以下示例发出包含客户端 IP 地址、API ID 和用户 ID 维度的令牌指标（来自自定义标头）：

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

此图显示如何使用 API 管理发出令牌指标。

此外，在 Azure API 管理中启用 LLM API 的日志记录，以跟踪计费和审核的令牌使用情况、提示和完成情况。启用日志记录后，可以在 Application Insights 中分析日志，并使用 API 管理中的内置仪表板查看 AI API 中的令牌使用模式。

详细信息：

开发人员体验

使用 AI 网关和 Azure API 中心简化 AI API 和 MCP 服务器的开发和部署。除了 API 管理中常见 AI 场景的用户友好型导入和策略配置体验外，您还可以利用：

在 Azure API 中心的组织目录中轻松注册 API 和 MCP 服务器
通过 API 管理和 API 中心中的开发人员门户访问自助服务 API 和 MCP 服务器
用于自定义的 API 管理策略工具包
API Center Copilot Studio 连接组件，用于扩展 AI 代理的功能

门户中 API 中心中 MCP 服务器的屏幕截图。

详细信息：

提前访问 AI 网关功能

作为 API 管理客户，可以通过 AI 网关发布渠道提前访问新功能。此访问权限允许你在正式发布 AI 网关创新之前试用最新的 AI 网关创新，并提供反馈来帮助塑造产品。

详细信息：

为 API 管理实例配置服务更新设置

实验室和代码示例

体系结构和设计

反馈

此页面是否有帮助？

Last updated on 2025-11-26

通过

Azure API 管理中的 AI 网关

为何使用 AI 网关？

交通中介和控制

可伸缩性和性能

令牌速率限制和配额

语义缓存

API 管理中的原生缩放功能

安全和安全

复原能力

负载均衡器

断路器

可观测性和治理

开发人员体验

提前访问 AI 网关功能

实验室和代码示例

体系结构和设计

相关内容

反馈

其他资源