Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
APLICA-SE A: Todas as camadas de gerenciamento de API
O gateway de IA no Gerenciamento de API do Azure é um conjunto de recursos que ajudam você a gerenciar seus back-ends de IA de forma eficaz. Esses recursos ajudam você a gerenciar, proteger, dimensionar, monitorar e governar implantações de LLM (modelo de linguagem grande), APIs de IA e servidores MCP (Model Context Protocol) que apoiam seus aplicativos e agentes inteligentes.
Use o gateway de IA para gerir uma ampla gama de endpoints de IA, incluindo:
- Microsoft Foundry e Azure OpenAI nas implementações dos modelos Microsoft Foundry
- Implantações da API de Inferência de Modelo de IA do Azure
- Servidores MCP remotos e APIs de agentes A2A
- Modelos e endpoints compatíveis com OpenAI hospedados por provedores que não são da Microsoft
- Modelos e endpoints auto-hospedados
Nota
O gateway de IA, incluindo os recursos do servidor MCP, estende o gateway de API existente do Gerenciamento de API; não é uma oferta separada. Os recursos de governança e desenvolvedor relacionados estão na Central de API do Azure.
Por que usar um gateway de IA?
A adoção da IA nas organizações envolve várias fases:
- Definição de requisitos e avaliação de modelos de IA
- Criação de aplicativos e agentes de IA que precisam de acesso a modelos e serviços de IA
- Operacionalização e implantação de aplicativos de IA e back-ends para produção
À medida que a adoção da IA amadurece, especialmente em empresas maiores, o gateway de IA ajuda a enfrentar os principais desafios, ajudando a:
- Autenticar e autorizar o acesso a serviços de IA
- Balanceamento de carga em vários endpoints de IA
- Monitorar e registrar interações de IA
- Gerencie o uso de tokens e cotas em vários aplicativos
- Habilite o autosserviço para equipes de desenvolvedores
Mediação e controlo de tráfego
Com o gateway de IA, você pode:
- Importe e configure rapidamente endpoints LLM compatíveis com OpenAI ou pass-through como APIs.
- Gerir modelos implementados na Microsoft Foundry ou em fornecedores como o Amazon Bedrock
- Governe a conclusão do bate-papo, as respostas e as APIs em tempo real
- Exponha suas APIs REST existentes como servidores MCP e suporte passagem para servidores MCP
- Importar e gerir APIs de agentes A2A (pré-visualização)
Por exemplo, para integrar um modelo implementado na Microsoft Foundry ou noutro fornecedor, a API Management fornece assistentes simplificados para importar o esquema e configurar a autenticação para o endpoint de IA usando uma identidade gerida, eliminando a necessidade de configuração manual. Dentro da mesma experiência amigável, você pode pré-configurar políticas para escalabilidade, segurança e observabilidade da API.
Mais informações:
- Importar uma API Microsoft Foundry
- Importar uma API de modelo de idioma
- Expor uma API REST como um servidor MCP
- Expor e governar um servidor MCP existente
- Importar uma API de agente A2A
Escalabilidade e desempenho
Um dos principais recursos em serviços de IA generativa são os tokens. A Microsoft Foundry e outros fornecedores atribuem quotas para as implementações do seu modelo como tokens-per-minute (TPM). Você distribui esses tokens entre seus consumidores de modelo, como diferentes aplicativos, equipes de desenvolvedores ou departamentos dentro da empresa.
Se você tiver um único aplicativo se conectando a um back-end de serviço de IA, poderá gerenciar o consumo de token com um limite de TPM definido diretamente na implantação do modelo. No entanto, quando o seu portfólio de aplicações cresce, pode ter vários aplicativos a chamar um ou vários endpoints de serviços de IA. Esses pontos de extremidade podem ser instâncias pré-pagas ou de unidades de taxa de transferência provisionadas (PTU). Você precisa certificar-se de que um aplicativo não consuma toda a cota do TPM, bloqueando outros aplicativos de acessarem os sistemas de backend de que precisam.
Limitação de taxa de token e cotas
Configure uma política de limite de token em suas APIs LLM para gerenciar e impor limites por consumidor de API com base no uso de tokens de serviço de IA. Com essa política, você pode definir um limite de TPM ou uma cota de token durante um período especificado, como por hora, diariamente, semanalmente, mensalmente ou anualmente.
Esta política oferece flexibilidade para atribuir limites baseados em tokens em qualquer chave de contador, como chave de assinatura, endereço IP de origem ou uma chave arbitrária definida por meio de uma expressão de política. A política também permite o pré-cálculo de tokens de solicitação no lado do Gerenciamento de API do Azure, reduzindo o número de solicitações desnecessárias ao back-end do serviço de IA se a solicitação já exceder o limite.
O exemplo básico a seguir demonstra como definir um limite de TPM de 500 por chave de assinatura:
<llm-token-limit counter-key="@(context.Subscription.Id)"
tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>
Mais informações:
Cache semântico
O cache semântico é uma técnica que melhora o desempenho de APIs LLM armazenando em cache os resultados (conclusão) de prompts anteriores e reutilizando-os comparando a proximidade vetorial do prompt com solicitações anteriores. Essa técnica reduz o número de chamadas feitas para o back-end do serviço de IA, melhora os tempos de resposta para os usuários finais e pode ajudar a reduzir custos.
No Gerenciamento de API, habilite o cache semântico usando o Azure Managed Redis ou outro cache externo compatível com o RediSearch e integrado ao Gerenciamento de API do Azure. Usando a API de Embeddings, as políticas llm-semantic-cache-store e llm-semantic-cache-lookup armazenam e recuperam do cache as completações de prompts semânticamente semelhantes. Essa abordagem garante a reutilização das completações, resultando em consumo reduzido de tokens e melhor desempenho de resposta.
Mais informações:
- Configurar um cache externo no Gerenciamento de API do Azure
- Habilitar cache semântico para APIs de IA no Gerenciamento de API do Azure
Recursos nativos de escalabilidade na Gestão de API
O Gerenciamento de API também fornece recursos de dimensionamento integrados para ajudar o gateway a lidar com grandes volumes de solicitações para suas APIs de IA. Esses recursos incluem a adição automática ou manual de unidades de escala de gateway e a adição de gateways regionais para implantações em várias regiões. Os recursos específicos dependem da camada de serviço de Gerenciamento de API.
Mais informações:
- Atualizar e dimensionar uma instância de Gerenciamento de API
- Implantar uma instância de Gerenciamento de API em várias regiões
Nota
Embora o Gerenciamento de API possa dimensionar a capacidade do gateway, você também precisa dimensionar e distribuir o tráfego para seus back-ends de IA para acomodar o aumento da carga (consulte a seção Resiliência ). Por exemplo, para aproveitar a distribuição geográfica do seu sistema em uma configuração de várias regiões, você deve implantar serviços de IA de back-end nas mesmas regiões que seus gateways de Gerenciamento de API.
Segurança e proteção
Um gateway de IA protege e controla o acesso às suas APIs de IA. Com o gateway de IA, você pode:
- Use identidades gerenciadas para autenticar nos serviços de IA do Azure, para que você não precise de chaves de API para autenticação
- Configurar a autorização OAuth para aplicativos e agentes de IA acessarem APIs ou servidores MCP usando o gerenciador de credenciais do Gerenciamento de API
- Aplicar políticas para moderar automaticamente os prompts de LLM através do Azure AI Content Safety
Mais informações:
- Autenticar e autorizar o acesso às APIs dos LLMs
- Sobre credenciais de API e gerenciador de credenciais
- Impor verificações de segurança de conteúdo em solicitações LLM
Resiliency
Um desafio ao criar aplicativos inteligentes é garantir que os aplicativos sejam resilientes a falhas de back-end e possam lidar com altas cargas. Ao configurar os seus pontos de extremidade LLM com back-ends no Gerenciamento de API do Azure, é possível distribuir a carga entre eles. Você também pode definir regras de disjuntor para suspender o encaminhamento de solicitações para os back-ends de serviço de IA, caso não sejam responsivos.
Balanceador de carga
O balanceador de carga de back-end suporta balanceamento de carga round-robin, ponderado, baseado em prioridades e com reconhecimento de sessão. Você pode definir uma estratégia de distribuição de carga que atenda aos seus requisitos específicos. Por exemplo, defina prioridades dentro da configuração do balanceador de carga para garantir a utilização ótima de endpoints específicos do Microsoft Foundry, particularmente aqueles adquiridos como instâncias PTU.
Disjuntor
O corte-circuito back-end apresenta tempo de disparo dinâmico, aplicando valores do Retry-After cabeçalho fornecido pelo back-end. Esse recurso garante a recuperação precisa e oportuna dos backends, maximizando a utilização de seus back-ends prioritários.
Mais informações:
Observabilidade e governação
O Gerenciamento de API fornece recursos abrangentes de monitoramento e análise para rastrear padrões de uso de tokens, otimizar custos, garantir a conformidade com suas políticas de governança de IA e solucionar problemas com suas APIs de IA. Use esses recursos para:
- Gravar prompts e completamentos no Azure Monitor
- Acompanhe métricas de token por consumidor no Application Insights
- Exibir o painel de monitoramento integrado
- Configurar políticas com expressões personalizadas
- Gerenciar cotas de token entre aplicativos
Por exemplo, você pode emitir métricas de token com a política llm-emit-token-metric e adicionar dimensões personalizadas que você pode usar para filtrar a métrica no Azure Monitor. O exemplo a seguir emite métricas de token com dimensões para endereço IP do cliente, ID da API e ID do usuário (de um cabeçalho personalizado):
<llm-emit-token-metric namespace="llm-metrics">
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" value="@(context.Api.Id)" />
<dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>
Além disso, habilite o registro em log para APIs LLM no Gerenciamento de API do Azure para rastrear o uso de tokens, prompts e finalizações para cobrança e auditoria. Depois de habilitar o log, você pode analisar os logs no Application Insights e usar um painel interno no Gerenciamento de API para exibir padrões de consumo de token em suas APIs de IA.
Mais informações:
Experiência do desenvolvedor
Use o gateway de IA e a Central de APIs do Azure para simplificar o desenvolvimento e a implantação de suas APIs de IA e servidores MCP. Além das experiências de importação e configuração de políticas fáceis de usar para cenários comuns de IA no Gerenciamento de API, você pode aproveitar:
- Registro fácil de APIs e servidores MCP em um catálogo organizacional na Central de APIs do Azure
- Acesso à API de autoatendimento e ao servidor MCP por meio de portais de desenvolvedor no Gerenciamento de API e no Centro de APIs
- Kit de ferramentas de política de gerenciamento de API para personalização
- Conector do API Center Copilot Studio para estender os recursos dos agentes de IA
Mais informações:
- Registrar e descobrir servidores MCP na Central de APIs
- Sincronizar APIs e servidores MCP entre o Gerenciamento de API e o Centro de APIs
- Portal do desenvolvedor do Gerenciamento de API
- Portal do Centro de API
- Kit de ferramentas de política de Gerenciamento de API do Azure
- Conector do API Center Copilot Studio
Acesso antecipado aos recursos do gateway de IA
Como cliente de Gerenciamento de API, você pode obter acesso antecipado a novos recursos e capacidades por meio do canal de lançamento do AI Gateway. Esse acesso permite que você experimente as mais recentes inovações de gateway de IA antes que elas estejam disponíveis ao público e forneça feedback para ajudar a moldar o produto.
Mais informações:
Laboratórios e exemplos de código
- Laboratórios de recursos de gateway de IA
- Workshop de portal de IA
- Azure OpenAI com Gerenciamento de API (Node.js)
- Código de exemplo Python
Arquitetura e design
- Arquitetura de referência de gateway de IA usando Gerenciamento de API
- Acelerador da zona de aterragem do gateway do hub de IA
- Projetando e implementando uma solução de gateway com recursos do Azure OpenAI
- Utilizar um gateway antes de várias implementações do Azure OpenAI