你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于:所有 API 管理层级
Azure API 管理中的 AI 网关 是一组功能,可帮助你有效地管理 AI 后端。 这些功能可帮助你管理、保护、缩放、监视和管理支持智能应用和代理的大型语言模型(LLM)部署、AI API 和模型上下文协议(MCP)服务器。
使用 AI 网关管理各种 AI 端点,包括:
- Microsoft Foundry 和 Azure OpenAI 在 Microsoft Foundry 模型中的部署
- Azure AI 模型推理 API 部署
- 远程 MCP 服务器和 A2A 代理 API
- 由非微软服务商托管的 OpenAI 兼容模型和终结点
- 自托管模型和终结点
注意
AI 网关(包括 MCP 服务器功能)扩展了 API 管理的现有 API 网关;这不是单独的产品/服务。 相关的治理和开发人员功能位于 Azure API 中心。
为何使用 AI 网关?
组织中的 AI 采用涉及几个阶段:
- 定义要求并评估 AI 模型
- 构建需要访问 AI 模型和服务的 AI 应用和代理
- 将 AI 应用和后端实现和部署到生产环境
随着 AI 采用的成熟,尤其是在大型企业中,AI 网关有助于应对关键挑战,帮助:
- 对 AI 服务的访问权限进行身份验证和授权
- 跨多个 AI 终结点进行负载均衡
- 监视和记录 AI 交互
- 跨多个应用程序管理令牌使用情况和配额
- 为开发人员团队启用自助服务
交通中介和控制
借助 AI 网关,可以:
- 快速导入 OpenAI 兼容或直通 LLM 终结点并将其配置为 API
- 管理部署在 Microsoft Foundry 或提供商(如 Amazon Bedrock)中的模型
- 控制聊天完成、响应和实时 API
- 将现有的 REST API 公开为 MCP 服务器,并支持透传至 MCP 服务器
- 导入和管理 A2A 代理 API(预览版)
例如,若要载入部署在 Microsoft Foundry 或其他提供程序中的模型,API 管理提供了简化的向导,用于使用托管标识将架构导入并设置 AI 终结点的身份验证,从而无需手动配置。 在同一个用户友好体验中,可以为 API 可伸缩性、安全性和可观测性预配置策略。
详细信息:
可伸缩性和性能
生成式 AI 服务的主要资源之一是 令牌。 Microsoft Foundry 和其他提供程序以每分钟令牌 (TPM) 的形式为模型部署分配配额。 可以在模型使用者之间分发这些令牌,例如公司内的不同应用程序、开发人员团队或部门。
如果单个应用连接到 AI 服务后端,则可以使用直接在模型部署上设置的 TPM 限制来管理令牌消耗。 但是,当应用程序组合增长时,你可能有多个应用调用单个或多个 AI 服务终结点。 这些终结点可以是即用即付或 预配吞吐量单位 (PTU)实例。 需要确保一个应用不使用整个 TPM 配额,并阻止其他应用访问所需的后端。
令牌速率限制和配额
在 LLM API 上配置令牌限制策略,以根据 AI 服务令牌的使用来管理和强制实施每个 API 使用者的限制。 使用此策略,可以在指定时间段内设置 TPM 限制或令牌配额,例如每小时、每日、每周、每月或每年。
此策略可灵活分配任何计数器密钥(例如订阅密钥、发起 IP 地址或通过策略表达式定义的任意密钥)基于令牌的限制。 该策略还允许在 Azure API 管理端预先计算提示令牌,如果提示已超出限制,将对 AI 服务后端的不必要的请求降到最低。
以下基本示例演示如何设置每个订阅密钥 500 的 TPM 限制:
<llm-token-limit counter-key="@(context.Subscription.Id)"
tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>
详细信息:
语义缓存
语义缓存是一种技术,它通过缓存先前提示的结果(完成)以及通过将提示的向量邻近度与以前的请求进行比较来重用它们,从而提高 LLM API 的性能。 此方法可减少对 AI 服务后端发出的调用数,改善最终用户的响应时间,并有助于降低成本。
在 API 管理中,使用 Azure 托管 Redis 或其他与 RediSearch 兼容的外部缓存并载入 Azure API 管理来启用语义缓存。 通过使用 Embeddings API,llm-semantic-cache-store 和 llm-semantic-cache-lookup 策略能够将语义相似的提示完成存储到缓存中并进行检索。 此方法可确保重复使用完成,从而减少令牌消耗,并提高响应性能。
详细信息:
API 管理中的原生缩放功能
API 管理还提供内置缩放功能,以帮助网关处理大量对 AI API 的请求。 这些功能包括自动或手动添加网关 缩放单元 ,以及为多区域部署添加区域网关。 特定功能取决于 API 管理服务层。
详细信息:
注意
虽然 API 管理可以缩放网关容量,但还需要缩放流量并将其分发到 AI 后端,以适应增加的负载(请参阅 “复原” 部分)。 例如,若要在多区域配置中利用系统的地理分布,应在 API 管理网关所在的同一区域中部署后端 AI 服务。
安全和安全
AI 网关可保护和控制对 AI API 的访问。 借助 AI 网关,可以:
- 使用托管标识向 Azure AI 服务进行身份验证,因此无需 API 密钥进行身份验证
- 使用 API 管理的凭据管理器为 AI 应用和代理配置 OAuth 授权以访问 API 或 MCP 服务器
- 通过使用 Azure AI 内容安全,应用策略来自动审查 LLM 提示
详细信息:
复原能力
构建智能应用程序时,一个难题是确保应用程序能够应对后端故障,并能够承受高负载。 通过在 Azure API 管理中使用 后端 配置 LLM 终结点,可以跨后端均衡负载。 还可以定义断路器规则,以在请求不响应时停止将请求转发到 AI 服务后端。
负载均衡器
后端 负载均衡器 支持轮询、加权、基于优先级和会话感知的负载均衡。 可以定义满足特定要求的负载分发策略。 例如,在负载均衡器配置中定义优先级,以确保特定 Microsoft Foundry 终结点(尤其是购买为 PTU 实例的终结点)的最佳利用率。
断路器
后端断路器具有动态行程持续时间,并应用后端提供的 Retry-After 标头中的值。 此功能可确保后端的精确和及时恢复,最大限度地利用优先级后端。
详细信息:
可观测性和治理
API 管理提供全面的监视和分析功能,用于跟踪令牌使用模式、优化成本、确保符合 AI 治理策略以及排查 AI API 问题。 使用这些功能可以:
- 将提示和完成记录到 Azure Monitor
- 在 Application Insights 中跟踪每个使用者的令牌指标
- 查看内置监视仪表板
- 使用自定义表达式配置策略
- 跨应用程序管理令牌配额
例如,可以使用 llm-emit-token-metric 策略发出令牌指标,并添加可用于在 Azure Monitor 中筛选指标的自定义维度。 以下示例发出包含客户端 IP 地址、API ID 和用户 ID 维度的令牌指标(来自自定义标头):
<llm-emit-token-metric namespace="llm-metrics">
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" value="@(context.Api.Id)" />
<dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>
此外,在 Azure API 管理中启用 LLM API 的日志记录,以跟踪计费和审核的令牌使用情况、提示和完成情况。 启用日志记录后,可以在 Application Insights 中分析日志,并使用 API 管理中的内置仪表板查看 AI API 中的令牌使用模式。
详细信息:
开发人员体验
使用 AI 网关和 Azure API 中心 简化 AI API 和 MCP 服务器的开发和部署。 除了 API 管理中常见 AI 场景的用户友好型导入和策略配置体验外,您还可以利用:
- 在 Azure API 中心的组织目录中轻松注册 API 和 MCP 服务器
- 通过 API 管理和 API 中心中的开发人员门户访问自助服务 API 和 MCP 服务器
- 用于自定义的 API 管理策略工具包
- API Center Copilot Studio 连接组件,用于扩展 AI 代理的功能
详细信息:
- 在 API 中心注册和发现 MCP 服务器
- 在 API 管理和 API 中心之间同步 API 和 MCP 服务器
- API 管理开发人员门户
- API 中心门户
- Azure API 管理策略工具包
- API 中心 Copilot Studio 接口
提前访问 AI 网关功能
作为 API 管理客户,可以通过 AI 网关发布渠道提前访问新功能。 此访问权限允许你在正式发布 AI 网关创新之前试用最新的 AI 网关创新,并提供反馈来帮助塑造产品。
详细信息: