Gateway de Inteligência Artificial na Gestão de API do Azure

APLICA-SE A: Todas as camadas de gerenciamento de API

O gateway de IA no Gerenciamento de API do Azure é um conjunto de recursos que ajudam você a gerenciar seus back-ends de IA de forma eficaz. Esses recursos ajudam você a gerenciar, proteger, dimensionar, monitorar e governar implantações de LLM (modelo de linguagem grande), APIs de IA e servidores MCP (Model Context Protocol) que apoiam seus aplicativos e agentes inteligentes.

Use o gateway de IA para gerir uma ampla gama de endpoints de IA, incluindo:

Microsoft Foundry e Azure OpenAI nas implementações dos modelos Microsoft Foundry
Implantações da API de Inferência de Modelo de IA do Azure
Servidores MCP remotos e APIs de agentes A2A
Modelos e endpoints compatíveis com OpenAI hospedados por provedores que não são da Microsoft
Modelos e endpoints auto-hospedados

Diagrama resumindo os recursos de gateway de IA do Gerenciamento de API do Azure.

Nota

O gateway de IA, incluindo os recursos do servidor MCP, estende o gateway de API existente do Gerenciamento de API; não é uma oferta separada. Os recursos de governança e desenvolvedor relacionados estão na Central de API do Azure.

Por que usar um gateway de IA?

A adoção da IA nas organizações envolve várias fases:

Definição de requisitos e avaliação de modelos de IA
Criação de aplicativos e agentes de IA que precisam de acesso a modelos e serviços de IA
Operacionalização e implantação de aplicativos de IA e back-ends para produção

À medida que a adoção da IA amadurece, especialmente em empresas maiores, o gateway de IA ajuda a enfrentar os principais desafios, ajudando a:

Autenticar e autorizar o acesso a serviços de IA
Balanceamento de carga em vários endpoints de IA
Monitorar e registrar interações de IA
Gerencie o uso de tokens e cotas em vários aplicativos
Habilite o autosserviço para equipes de desenvolvedores

Mediação e controlo de tráfego

Com o gateway de IA, você pode:

Importe e configure rapidamente endpoints LLM compatíveis com OpenAI ou pass-through como APIs.
Gerir modelos implementados na Microsoft Foundry ou em fornecedores como o Amazon Bedrock
Governe a conclusão do bate-papo, as respostas e as APIs em tempo real
Exponha suas APIs REST existentes como servidores MCP e suporte passagem para servidores MCP
Importar e gerir APIs de agentes A2A (pré-visualização)

Por exemplo, para integrar um modelo implementado na Microsoft Foundry ou noutro fornecedor, a API Management fornece assistentes simplificados para importar o esquema e configurar a autenticação para o endpoint de IA usando uma identidade gerida, eliminando a necessidade de configuração manual. Dentro da mesma experiência amigável, você pode pré-configurar políticas para escalabilidade, segurança e observabilidade da API.

Mais informações:

Escalabilidade e desempenho

Um dos principais recursos em serviços de IA generativa são os tokens. A Microsoft Foundry e outros fornecedores atribuem quotas para as implementações do seu modelo como tokens-per-minute (TPM). Você distribui esses tokens entre seus consumidores de modelo, como diferentes aplicativos, equipes de desenvolvedores ou departamentos dentro da empresa.

Se você tiver um único aplicativo se conectando a um back-end de serviço de IA, poderá gerenciar o consumo de token com um limite de TPM definido diretamente na implantação do modelo. No entanto, quando o seu portfólio de aplicações cresce, pode ter vários aplicativos a chamar um ou vários endpoints de serviços de IA. Esses pontos de extremidade podem ser instâncias pré-pagas ou de unidades de taxa de transferência provisionadas (PTU). Você precisa certificar-se de que um aplicativo não consuma toda a cota do TPM, bloqueando outros aplicativos de acessarem os sistemas de backend de que precisam.

Limitação de taxa de token e cotas

Configure uma política de limite de token em suas APIs LLM para gerenciar e impor limites por consumidor de API com base no uso de tokens de serviço de IA. Com essa política, você pode definir um limite de TPM ou uma cota de token durante um período especificado, como por hora, diariamente, semanalmente, mensalmente ou anualmente.

Diagrama de limitação de tokens do Serviço OpenAI do Azure no Gerenciamento de API.

Esta política oferece flexibilidade para atribuir limites baseados em tokens em qualquer chave de contador, como chave de assinatura, endereço IP de origem ou uma chave arbitrária definida por meio de uma expressão de política. A política também permite o pré-cálculo de tokens de solicitação no lado do Gerenciamento de API do Azure, reduzindo o número de solicitações desnecessárias ao back-end do serviço de IA se a solicitação já exceder o limite.

O exemplo básico a seguir demonstra como definir um limite de TPM de 500 por chave de assinatura:

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

Mais informações:

Política de limite de token LLM

Cache semântico

O cache semântico é uma técnica que melhora o desempenho de APIs LLM armazenando em cache os resultados (conclusão) de prompts anteriores e reutilizando-os comparando a proximidade vetorial do prompt com solicitações anteriores. Essa técnica reduz o número de chamadas feitas para o back-end do serviço de IA, melhora os tempos de resposta para os usuários finais e pode ajudar a reduzir custos.

No Gerenciamento de API, habilite o cache semântico usando o Azure Managed Redis ou outro cache externo compatível com o RediSearch e integrado ao Gerenciamento de API do Azure. Usando a API de Embeddings, as políticas llm-semantic-cache-store e llm-semantic-cache-lookup armazenam e recuperam do cache as completações de prompts semânticamente semelhantes. Essa abordagem garante a reutilização das completações, resultando em consumo reduzido de tokens e melhor desempenho de resposta.

Diagrama de cache semântico no Gerenciamento de API.

Mais informações:

Recursos nativos de escalabilidade na Gestão de API

O Gerenciamento de API também fornece recursos de dimensionamento integrados para ajudar o gateway a lidar com grandes volumes de solicitações para suas APIs de IA. Esses recursos incluem a adição automática ou manual de unidades de escala de gateway e a adição de gateways regionais para implantações em várias regiões. Os recursos específicos dependem da camada de serviço de Gerenciamento de API.

Mais informações:

Nota

Embora o Gerenciamento de API possa dimensionar a capacidade do gateway, você também precisa dimensionar e distribuir o tráfego para seus back-ends de IA para acomodar o aumento da carga (consulte a seção Resiliência ). Por exemplo, para aproveitar a distribuição geográfica do seu sistema em uma configuração de várias regiões, você deve implantar serviços de IA de back-end nas mesmas regiões que seus gateways de Gerenciamento de API.

Segurança e proteção

Um gateway de IA protege e controla o acesso às suas APIs de IA. Com o gateway de IA, você pode:

Use identidades gerenciadas para autenticar nos serviços de IA do Azure, para que você não precise de chaves de API para autenticação
Configurar a autorização OAuth para aplicativos e agentes de IA acessarem APIs ou servidores MCP usando o gerenciador de credenciais do Gerenciamento de API
Aplicar políticas para moderar automaticamente os prompts de LLM através do Azure AI Content Safety

Diagrama da política de segurança de conteúdo no Gerenciamento de API.

Mais informações:

Resiliency

Um desafio ao criar aplicativos inteligentes é garantir que os aplicativos sejam resilientes a falhas de back-end e possam lidar com altas cargas. Ao configurar os seus pontos de extremidade LLM com back-ends no Gerenciamento de API do Azure, é possível distribuir a carga entre eles. Você também pode definir regras de disjuntor para suspender o encaminhamento de solicitações para os back-ends de serviço de IA, caso não sejam responsivos.

Balanceador de carga

O balanceador de carga de back-end suporta balanceamento de carga round-robin, ponderado, baseado em prioridades e com reconhecimento de sessão. Você pode definir uma estratégia de distribuição de carga que atenda aos seus requisitos específicos. Por exemplo, defina prioridades dentro da configuração do balanceador de carga para garantir a utilização ótima de endpoints específicos do Microsoft Foundry, particularmente aqueles adquiridos como instâncias PTU.

Diagrama do uso do balanceamento de carga de back-end no Gerenciamento de API.

Disjuntor

O corte-circuito back-end apresenta tempo de disparo dinâmico, aplicando valores do Retry-After cabeçalho fornecido pelo back-end. Esse recurso garante a recuperação precisa e oportuna dos backends, maximizando a utilização de seus back-ends prioritários.

Diagrama da utilização do disjuntor de backend no Gerenciamento de API.

Mais informações:

Back-ends de Gestão de API

Observabilidade e governação

O Gerenciamento de API fornece recursos abrangentes de monitoramento e análise para rastrear padrões de uso de tokens, otimizar custos, garantir a conformidade com suas políticas de governança de IA e solucionar problemas com suas APIs de IA. Use esses recursos para:

Gravar prompts e completamentos no Azure Monitor
Acompanhe métricas de token por consumidor no Application Insights
Exibir o painel de monitoramento integrado
Configurar políticas com expressões personalizadas
Gerenciar cotas de token entre aplicativos

Por exemplo, você pode emitir métricas de token com a política llm-emit-token-metric e adicionar dimensões personalizadas que você pode usar para filtrar a métrica no Azure Monitor. O exemplo a seguir emite métricas de token com dimensões para endereço IP do cliente, ID da API e ID do usuário (de um cabeçalho personalizado):

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

Diagrama de métricas de token de emissão usando Gerenciamento de API.

Além disso, habilite o registro em log para APIs LLM no Gerenciamento de API do Azure para rastrear o uso de tokens, prompts e finalizações para cobrança e auditoria. Depois de habilitar o log, você pode analisar os logs no Application Insights e usar um painel interno no Gerenciamento de API para exibir padrões de consumo de token em suas APIs de IA.

Mais informações:

Experiência do desenvolvedor

Use o gateway de IA e a Central de APIs do Azure para simplificar o desenvolvimento e a implantação de suas APIs de IA e servidores MCP. Além das experiências de importação e configuração de políticas fáceis de usar para cenários comuns de IA no Gerenciamento de API, você pode aproveitar:

Registro fácil de APIs e servidores MCP em um catálogo organizacional na Central de APIs do Azure
Acesso à API de autoatendimento e ao servidor MCP por meio de portais de desenvolvedor no Gerenciamento de API e no Centro de APIs
Kit de ferramentas de política de gerenciamento de API para personalização
Conector do API Center Copilot Studio para estender os recursos dos agentes de IA

Captura de ecrã dos servidores MCP no Centro de API no portal.

Mais informações:

Acesso antecipado aos recursos do gateway de IA

Como cliente de Gerenciamento de API, você pode obter acesso antecipado a novos recursos e capacidades por meio do canal de lançamento do AI Gateway. Esse acesso permite que você experimente as mais recentes inovações de gateway de IA antes que elas estejam disponíveis ao público e forneça feedback para ajudar a moldar o produto.

Mais informações:

Definir configurações de atualização de serviço para suas instâncias de Gerenciamento de API

Partilhar via

Gateway de Inteligência Artificial na Gestão de API do Azure

Por que usar um gateway de IA?

Mediação e controlo de tráfego

Escalabilidade e desempenho

Limitação de taxa de token e cotas

Cache semântico

Recursos nativos de escalabilidade na Gestão de API

Segurança e proteção

Resiliency

Balanceador de carga

Disjuntor

Observabilidade e governação

Experiência do desenvolvedor

Acesso antecipado aos recursos do gateway de IA

Laboratórios e exemplos de código

Arquitetura e design

Conteúdos relacionados

Feedback

Recursos adicionais