你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure API 管理中的 AI 网关

适用于:所有 API 管理层级

Azure API 管理中的 AI 网关 是一组功能,可帮助你有效地管理 AI 后端。 这些功能可帮助你管理、保护、缩放、监视和管理支持智能应用和代理的大型语言模型(LLM)部署、AI API 和模型上下文协议(MCP)服务器。

使用 AI 网关管理各种 AI 端点,包括:

Azure API 管理 AI 网关功能概述图。

注意

AI 网关(包括 MCP 服务器功能)扩展了 API 管理的现有 API 网关;这不是单独的产品/服务。 相关的治理和开发人员功能位于 Azure API 中心

为何使用 AI 网关?

组织中的 AI 采用涉及几个阶段:

  • 定义要求并评估 AI 模型
  • 构建需要访问 AI 模型和服务的 AI 应用和代理
  • 将 AI 应用和后端实现和部署到生产环境

随着 AI 采用的成熟,尤其是在大型企业中,AI 网关有助于应对关键挑战,帮助:

  • 对 AI 服务的访问权限进行身份验证和授权
  • 跨多个 AI 终结点进行负载均衡
  • 监视和记录 AI 交互
  • 跨多个应用程序管理令牌使用情况和配额
  • 为开发人员团队启用自助服务

交通中介和控制

借助 AI 网关,可以:

  • 快速导入 OpenAI 兼容或直通 LLM 终结点并将其配置为 API
  • 管理部署在 Microsoft Foundry 或提供商(如 Amazon Bedrock)中的模型
  • 控制聊天完成、响应和实时 API
  • 将现有的 REST API 公开为 MCP 服务器,并支持透传至 MCP 服务器
  • 导入和管理 A2A 代理 API(预览版)

例如,若要载入部署在 Microsoft Foundry 或其他提供程序中的模型,API 管理提供了简化的向导,用于使用托管标识将架构导入并设置 AI 终结点的身份验证,从而无需手动配置。 在同一个用户友好体验中,可以为 API 可伸缩性、安全性和可观测性预配置策略。

Azure 门户中Microsoft Foundry 模型导入的屏幕截图。

详细信息:

可伸缩性和性能

生成式 AI 服务的主要资源之一是 令牌。 Microsoft Foundry 和其他提供程序以每分钟令牌 (TPM) 的形式为模型部署分配配额。 可以在模型使用者之间分发这些令牌,例如公司内的不同应用程序、开发人员团队或部门。

如果单个应用连接到 AI 服务后端,则可以使用直接在模型部署上设置的 TPM 限制来管理令牌消耗。 但是,当应用程序组合增长时,你可能有多个应用调用单个或多个 AI 服务终结点。 这些终结点可以是即用即付或 预配吞吐量单位 (PTU)实例。 需要确保一个应用不使用整个 TPM 配额,并阻止其他应用访问所需的后端。

令牌速率限制和配额

在 LLM API 上配置令牌限制策略,以根据 AI 服务令牌的使用来管理和强制实施每个 API 使用者的限制。 使用此策略,可以在指定时间段内设置 TPM 限制或令牌配额,例如每小时、每日、每周、每月或每年。

限制 API 管理中的 Azure OpenAI 服务令牌的关系图。

此策略可灵活分配任何计数器密钥(例如订阅密钥、发起 IP 地址或通过策略表达式定义的任意密钥)基于令牌的限制。 该策略还允许在 Azure API 管理端预先计算提示令牌,如果提示已超出限制,将对 AI 服务后端的不必要的请求降到最低。

以下基本示例演示如何设置每个订阅密钥 500 的 TPM 限制:

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

详细信息:

语义缓存

语义缓存是一种技术,它通过缓存先前提示的结果(完成)以及通过将提示的向量邻近度与以前的请求进行比较来重用它们,从而提高 LLM API 的性能。 此方法可减少对 AI 服务后端发出的调用数,改善最终用户的响应时间,并有助于降低成本。

在 API 管理中,使用 Azure 托管 Redis 或其他与 RediSearch 兼容的外部缓存并载入 Azure API 管理来启用语义缓存。 通过使用 Embeddings API,llm-semantic-cache-storellm-semantic-cache-lookup 策略能够将语义相似的提示完成存储到缓存中并进行检索。 此方法可确保重复使用完成,从而减少令牌消耗,并提高响应性能。

API 管理中的语义缓存关系图。

详细信息:

API 管理中的原生缩放功能

API 管理还提供内置缩放功能,以帮助网关处理大量对 AI API 的请求。 这些功能包括自动或手动添加网关 缩放单元 ,以及为多区域部署添加区域网关。 特定功能取决于 API 管理服务层。

详细信息:

注意

虽然 API 管理可以缩放网关容量,但还需要缩放流量并将其分发到 AI 后端,以适应增加的负载(请参阅 “复原” 部分)。 例如,若要在多区域配置中利用系统的地理分布,应在 API 管理网关所在的同一区域中部署后端 AI 服务。

安全和安全

AI 网关可保护和控制对 AI API 的访问。 借助 AI 网关,可以:

  • 使用托管标识向 Azure AI 服务进行身份验证,因此无需 API 密钥进行身份验证
  • 使用 API 管理的凭据管理器为 AI 应用和代理配置 OAuth 授权以访问 API 或 MCP 服务器
  • 通过使用 Azure AI 内容安全,应用策略来自动审查 LLM 提示

API 管理中的内容安全策略示意图。

详细信息:

复原能力

构建智能应用程序时,一个难题是确保应用程序能够应对后端故障,并能够承受高负载。 通过在 Azure API 管理中使用 后端 配置 LLM 终结点,可以跨后端均衡负载。 还可以定义断路器规则,以在请求不响应时停止将请求转发到 AI 服务后端。

负载均衡器

后端 负载均衡器 支持轮询、加权、基于优先级和会话感知的负载均衡。 可以定义满足特定要求的负载分发策略。 例如,在负载均衡器配置中定义优先级,以确保特定 Microsoft Foundry 终结点(尤其是购买为 PTU 实例的终结点)的最佳利用率。

在 API 管理中使用后端负载均衡的关系图。

断路器

后端断路器具有动态行程持续时间,并应用后端提供的 Retry-After 标头中的值。 此功能可确保后端的精确和及时恢复,最大限度地利用优先级后端。

在 API 管理中使用后端断路器的关系图。

详细信息:

可观测性和治理

API 管理提供全面的监视和分析功能,用于跟踪令牌使用模式、优化成本、确保符合 AI 治理策略以及排查 AI API 问题。 使用这些功能可以:

  • 将提示和完成记录到 Azure Monitor
  • 在 Application Insights 中跟踪每个使用者的令牌指标
  • 查看内置监视仪表板
  • 使用自定义表达式配置策略
  • 跨应用程序管理令牌配额

例如,可以使用 llm-emit-token-metric 策略发出令牌指标,并添加可用于在 Azure Monitor 中筛选指标的自定义维度。 以下示例发出包含客户端 IP 地址、API ID 和用户 ID 维度的令牌指标(来自自定义标头):

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

此图显示如何使用 API 管理发出令牌指标。

此外,在 Azure API 管理中启用 LLM API 的日志记录,以跟踪计费和审核的令牌使用情况、提示和完成情况。 启用日志记录后,可以在 Application Insights 中分析日志,并使用 API 管理中的内置仪表板查看 AI API 中的令牌使用模式。

屏幕截图显示门户中语言模型 API 的分析。

详细信息:

开发人员体验

使用 AI 网关和 Azure API 中心 简化 AI API 和 MCP 服务器的开发和部署。 除了 API 管理中常见 AI 场景的用户友好型导入和策略配置体验外,您还可以利用:

  • 在 Azure API 中心的组织目录中轻松注册 API 和 MCP 服务器
  • 通过 API 管理和 API 中心中的开发人员门户访问自助服务 API 和 MCP 服务器
  • 用于自定义的 API 管理策略工具包
  • API Center Copilot Studio 连接组件,用于扩展 AI 代理的功能

门户中 API 中心中 MCP 服务器的屏幕截图。

详细信息:

提前访问 AI 网关功能

作为 API 管理客户,可以通过 AI 网关发布渠道提前访问新功能。 此访问权限允许你在正式发布 AI 网关创新之前试用最新的 AI 网关创新,并提供反馈来帮助塑造产品。

详细信息:

实验室和代码示例

体系结构和设计