Gateway de IA no Gerenciamento de API do Azure

APLICA-SE A: todas as camadas do Gerenciamento de API

O gateway de IA no Gerenciamento de API do Azure é um conjunto de recursos que ajudam você a gerenciar seus back-ends de IA com eficiência. Esses recursos ajudam você a gerenciar, proteger, dimensionar, monitorar e controlar implantações de LLM (modelo de linguagem grande), APIs de IA e servidores MCP (Protocolo de Contexto de Modelo) que dão suporte a seus aplicativos e agentes inteligentes.

Use o portal de IA para gerenciar uma ampla variedade de terminais de IA, incluindo:

Implantações do Microsoft Foundry e do Azure OpenAI no Microsoft Foundry Models
Implantações da API de Inferência do Modelo de IA do Azure
Servidores MCP remotos e APIs de agente A2A
Modelos e pontos de extremidade compatíveis com OpenAI hospedados por provedores que não são da Microsoft
Modelos e pontos de extremidade auto-hospedados

Diagrama resumindo os recursos de gateway de IA do Gerenciamento de API do Azure.

Observação

O gateway de IA, incluindo recursos de servidor MCP, estende o gateway de API existente do Gerenciamento de API; não é uma oferta separada. Os recursos de governança e desenvolvedor relacionados estão no Centro de API do Azure.

Por que usar um gateway de IA?

A adoção de IA em organizações envolve várias fases:

Definindo requisitos e avaliando modelos de IA
Criando aplicativos e agentes de IA que precisam de acesso a modelos e serviços de IA
Operacionalizando e implantando aplicativos de IA e back-ends na produção

À medida que a adoção da IA amadurece, especialmente em grandes empresas, o gateway de IA ajuda a enfrentar os principais desafios, ajudando a:

Autenticar e autorizar o acesso aos serviços de IA
Balanceamento de carga em vários terminais de IA
Monitorar e registrar interações de IA
Gerenciar o uso de token e cotas em vários aplicativos
Habilitar o autoatendimento para equipes de desenvolvedores

Controle e mediação de tráfego

Com o gateway de IA, você pode:

Importe e configure rapidamente pontos de extremidade LLM compatíveis com OpenAI ou passagem como APIs
Gerenciar modelos implantados no Microsoft Foundry ou provedores como o Amazon Bedrock
Administrar finalizações de chat, respostas e APIs em tempo real
Exponha suas APIs REST existentes como servidores MCP e ofereça suporte à passagem para servidores MCP
Importar e gerenciar APIs de agente A2A (versão prévia)

Por exemplo, para integrar um modelo implantado no Microsoft Foundry ou em outro provedor, o Gerenciamento de API fornece assistentes simplificados para importar o esquema e configurar a autenticação para o ponto de extremidade de IA usando uma identidade gerenciada, removendo a necessidade de configuração manual. Na mesma experiência amigável, você pode pré-configurar políticas para escalabilidade, segurança e observabilidade da API.

Mais informações:

Desempenho e escalabilidade

Um dos principais recursos em serviços de IA gerativos são tokens. O Microsoft Foundry e outros fornecedores atribuem quotas para as suas implementações de modelos em tokens por minuto (TPM). Você distribui esses tokens entre seus consumidores de modelo, como aplicativos diferentes, equipes de desenvolvedores ou departamentos dentro da empresa.

Se você tiver um único aplicativo se conectando a um back-end de serviço de IA, poderá gerenciar o consumo de token com um limite de TPM definido diretamente na implantação do modelo. No entanto, quando seu portfólio de aplicativos cresce, você pode ter vários aplicativos chamando pontos de extremidade de serviço de IA ou individuais. Esses pontos de extremidade podem ser instâncias pagas conforme o uso ou Unidades de Taxa de Transferência Provisionadas (PTU). Você precisa garantir que um aplicativo não use toda a cota do TPM e impedir que outros aplicativos acessem os back-ends de que precisam.

Limitação de taxa de token e cotas de uso de tokens

Configure uma política de limite de token em suas APIs LLM para gerenciar e impor limites por consumidor de API com base no uso de tokens de serviço de IA. Com essa política, você pode definir um limite de TPM ou uma cota de token durante um período especificado, como por hora, diariamente, semanal, mensal ou anual.

Diagrama de limitação de tokens do Serviço OpenAI do Azure no Gerenciamento de API.

Essa política fornece flexibilidade para atribuir limites baseados em token em qualquer chave de contador, como chave de assinatura, endereço IP de origem ou uma chave arbitrária definida por meio de uma expressão de política. A política também permite o pré-cálculo de tokens de solicitações no lado do Gerenciamento de API do Azure, minimizando solicitações desnecessárias para o back-end do serviço de IA se a solicitação já exceder o limite.

O exemplo básico a seguir demonstra como definir um limite de TPM de 500 por chave de assinatura:

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

Mais informações:

Política de limite de token LLM

Cache semântico

O cache semântico é uma técnica que melhora o desempenho das APIs LLM ao armazenar em cache os completamentos de prompts anteriores e reutilizá-los por meio da comparação da proximidade entre o vetor do prompt e solicitações anteriores. Essa técnica reduz o número de chamadas feitas ao back-end do serviço de IA, melhora os tempos de resposta para os usuários finais e pode ajudar a reduzir os custos.

No Gerenciamento de API, habilite o cache semântico usando o Redis Gerenciado do Azure ou outro cache externo compatível com o RediSearch e integrado ao Gerenciamento de API do Azure. Usando a API de embeddings, as políticas llm-semantic-cache-store e llm-semantic-cache-lookup armazenam e recuperam do cache completions de prompt que são semanticamente semelhantes. Essa abordagem garante a reutilização de conclusões, resultando em redução do consumo de token e melhor desempenho de resposta.

Diagrama de cache semântico no Gerenciamento de API.

Mais informações:

Recursos de dimensionamento nativos no Gerenciamento de APIs

O Gerenciamento de API também fornece recursos de dimensionamento internos para ajudar o gateway a lidar com grandes volumes de solicitações para suas APIs de IA. Esses recursos incluem a adição automática ou manual de unidades de escala de gateway e a adição de gateways regionais para implantações multirregionais. Recursos específicos dependem da camada de serviço de Gerenciamento de API.

Mais informações:

Observação

Embora o Gerenciamento de API possa dimensionar a capacidade do gateway, você também precisa dimensionar e distribuir o tráfego para seus back-ends de IA para acomodar o aumento da carga (consulte a seção Resiliência ). Por exemplo, para aproveitar a distribuição geográfica do sistema em uma configuração de várias regiões, você deve implantar serviços de IA de back-end nas mesmas regiões que os gateways de Gerenciamento de API.

Segurança e segurança

Um gateway de IA protege e controla o acesso às APIs de IA. Com o gateway de IA, você pode:

Use identidades gerenciadas para autenticar nos serviços de IA do Azure, para que você não precise de chaves de API para autenticação
Configurar a autorização do OAuth para aplicativos e agentes de IA para acessar APIs ou servidores MCP usando o gerenciador de credenciais do Gerenciamento de API
Aplicar políticas para moderar automaticamente os prompts LLM usando Azure AI Content Safety

Diagrama da política de segurança de conteúdo no Gerenciamento de API.

Mais informações:

Resiliency

Um desafio ao criar aplicativos inteligentes é garantir que os aplicativos sejam resilientes a falhas de back-end e possam lidar com cargas altas. Ao configurar seus pontos de extremidade LLM com back-ends no Gerenciamento de API do Azure, você pode balancear a carga entre eles. Você também pode definir regras de disjuntor para interromper o encaminhamento de solicitações para back-ends do serviço de IA se elas não estiverem respondendo.

Balanceador de carga

O balanceador de carga de back-end dá suporte ao balanceamento de carga round robin, ponderado, baseado em prioridade e com reconhecimento de sessão. Você pode definir uma estratégia de distribuição de carga que atenda aos seus requisitos específicos. Por exemplo, defina prioridades na configuração do balanceador de carga para garantir a utilização ideal de endpoints específicos do Microsoft Foundry, especialmente aqueles adquiridos como instâncias de PTU.

Diagrama do uso do balanceamento de carga de back-end no Gerenciamento de API.

Disjuntor

O disjuntor de back-end apresenta a duração dinâmica da viagem, aplicando valores do cabeçalho Retry-After fornecido pelo back-end. Esse recurso garante a recuperação precisa e oportuna dos back-ends, maximizando a utilização de seus back-ends de prioridade.

Diagrama do uso do disjuntor de back-end no Gerenciamento de API.

Mais informações:

Back-ends de Gestão de API

Observabilidade e governança

O Gerenciamento de API fornece recursos abrangentes de monitoramento e análise para acompanhar padrões de uso de token, otimizar custos, garantir a conformidade com suas políticas de governança de IA e solucionar problemas com suas APIs de IA. Use estes recursos para:

Registre solicitações e completamentos no Azure Monitor
Rastreia métricas de token por consumidor no Application Insights
Exibir o painel de monitoramento interno
Configurar políticas com expressões personalizadas
Gerenciar cotas de token entre aplicativos

Por exemplo, você pode emitir métricas de token com a política llm-emit-token-metric e adicionar dimensões personalizadas que você pode usar para filtrar a métrica no Azure Monitor. O exemplo a seguir emite métricas de token com dimensões para endereço IP do cliente, ID de API e ID de usuário (de um cabeçalho personalizado):

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

Diagrama de métricas de token de emissão usando o Gerenciamento de API.

Além disso, habilita o registro em log para APIs de LLM no Gerenciamento de API do Azure para controlar o uso, as solicitações e as conclusões do token para cobrança e auditoria. Depois de habilitar o registro em log, você poderá analisar os logs no Application Insights e usar um painel interno no Gerenciamento de API para exibir padrões de consumo de token em suas APIs de IA.

Mais informações:

Experiência do desenvolvedor

Use o gateway de IA e o Centro de API do Azure para simplificar o desenvolvimento e a implantação de suas APIs de IA e servidores MCP. Além das experiências de importação e configuração de política amigáveis para cenários comuns de IA no Gerenciamento de API, você pode aproveitar:

Fácil registro de APIs e servidores MCP em um catálogo organizacional no Centro de API do Azure
Acesso à API de autosserviço e ao servidor MCP por meio de portais de desenvolvedor no Gerenciamento de API e Centro de API.
Kit de ferramentas de política de Gerenciamento de API para personalização
Conector do Copilot Studio do Centro de API para estender os recursos dos agentes de IA

Captura de tela dos servidores MCP no Centro de API no portal.

Mais informações:

Acesso antecipado aos recursos do gateway de IA

Como cliente de gestão de APIs, você pode obter acesso antecipado a novas funcionalidades por meio do canal de lançamento do Gateway de IA. Esse acesso permite que você experimente as inovações mais recentes do gateway de IA antes que elas estejam geralmente disponíveis e forneça comentários para ajudar a moldar o produto.

Mais informações:

Definir as configurações de atualização de serviço para suas instâncias de Gerenciamento de API

Compartilhar via

Gateway de IA no Gerenciamento de API do Azure

Por que usar um gateway de IA?

Controle e mediação de tráfego

Desempenho e escalabilidade

Limitação de taxa de token e cotas de uso de tokens

Cache semântico

Recursos de dimensionamento nativos no Gerenciamento de APIs

Segurança e segurança

Resiliency

Balanceador de carga

Disjuntor

Observabilidade e governança

Experiência do desenvolvedor

Acesso antecipado aos recursos do gateway de IA

Laboratórios e exemplos de código

Arquitetura e design

Conteúdo relacionado

Comentários

Recursos adicionais