Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
APLICA-SE A: todas as camadas do Gerenciamento de API
O gateway de IA no Gerenciamento de API do Azure é um conjunto de recursos que ajudam você a gerenciar seus back-ends de IA com eficiência. Esses recursos ajudam você a gerenciar, proteger, dimensionar, monitorar e controlar implantações de LLM (modelo de linguagem grande), APIs de IA e servidores MCP (Protocolo de Contexto de Modelo) que dão suporte a seus aplicativos e agentes inteligentes.
Use o portal de IA para gerenciar uma ampla variedade de terminais de IA, incluindo:
- Implantações do Microsoft Foundry e do Azure OpenAI no Microsoft Foundry Models
- Implantações da API de Inferência do Modelo de IA do Azure
- Servidores MCP remotos e APIs de agente A2A
- Modelos e pontos de extremidade compatíveis com OpenAI hospedados por provedores que não são da Microsoft
- Modelos e pontos de extremidade auto-hospedados
Observação
O gateway de IA, incluindo recursos de servidor MCP, estende o gateway de API existente do Gerenciamento de API; não é uma oferta separada. Os recursos de governança e desenvolvedor relacionados estão no Centro de API do Azure.
Por que usar um gateway de IA?
A adoção de IA em organizações envolve várias fases:
- Definindo requisitos e avaliando modelos de IA
- Criando aplicativos e agentes de IA que precisam de acesso a modelos e serviços de IA
- Operacionalizando e implantando aplicativos de IA e back-ends na produção
À medida que a adoção da IA amadurece, especialmente em grandes empresas, o gateway de IA ajuda a enfrentar os principais desafios, ajudando a:
- Autenticar e autorizar o acesso aos serviços de IA
- Balanceamento de carga em vários terminais de IA
- Monitorar e registrar interações de IA
- Gerenciar o uso de token e cotas em vários aplicativos
- Habilitar o autoatendimento para equipes de desenvolvedores
Controle e mediação de tráfego
Com o gateway de IA, você pode:
- Importe e configure rapidamente pontos de extremidade LLM compatíveis com OpenAI ou passagem como APIs
- Gerenciar modelos implantados no Microsoft Foundry ou provedores como o Amazon Bedrock
- Administrar finalizações de chat, respostas e APIs em tempo real
- Exponha suas APIs REST existentes como servidores MCP e ofereça suporte à passagem para servidores MCP
- Importar e gerenciar APIs de agente A2A (versão prévia)
Por exemplo, para integrar um modelo implantado no Microsoft Foundry ou em outro provedor, o Gerenciamento de API fornece assistentes simplificados para importar o esquema e configurar a autenticação para o ponto de extremidade de IA usando uma identidade gerenciada, removendo a necessidade de configuração manual. Na mesma experiência amigável, você pode pré-configurar políticas para escalabilidade, segurança e observabilidade da API.
Mais informações:
- Importar uma API do Microsoft Foundry
- Importar uma API de modelo de idioma
- Expor uma API REST como um servidor MCP
- Expor e controlar um servidor MCP existente
- Importar uma API de agente A2A
Desempenho e escalabilidade
Um dos principais recursos em serviços de IA gerativos são tokens. O Microsoft Foundry e outros fornecedores atribuem quotas para as suas implementações de modelos em tokens por minuto (TPM). Você distribui esses tokens entre seus consumidores de modelo, como aplicativos diferentes, equipes de desenvolvedores ou departamentos dentro da empresa.
Se você tiver um único aplicativo se conectando a um back-end de serviço de IA, poderá gerenciar o consumo de token com um limite de TPM definido diretamente na implantação do modelo. No entanto, quando seu portfólio de aplicativos cresce, você pode ter vários aplicativos chamando pontos de extremidade de serviço de IA ou individuais. Esses pontos de extremidade podem ser instâncias pagas conforme o uso ou Unidades de Taxa de Transferência Provisionadas (PTU). Você precisa garantir que um aplicativo não use toda a cota do TPM e impedir que outros aplicativos acessem os back-ends de que precisam.
Limitação de taxa de token e cotas de uso de tokens
Configure uma política de limite de token em suas APIs LLM para gerenciar e impor limites por consumidor de API com base no uso de tokens de serviço de IA. Com essa política, você pode definir um limite de TPM ou uma cota de token durante um período especificado, como por hora, diariamente, semanal, mensal ou anual.
Essa política fornece flexibilidade para atribuir limites baseados em token em qualquer chave de contador, como chave de assinatura, endereço IP de origem ou uma chave arbitrária definida por meio de uma expressão de política. A política também permite o pré-cálculo de tokens de solicitações no lado do Gerenciamento de API do Azure, minimizando solicitações desnecessárias para o back-end do serviço de IA se a solicitação já exceder o limite.
O exemplo básico a seguir demonstra como definir um limite de TPM de 500 por chave de assinatura:
<llm-token-limit counter-key="@(context.Subscription.Id)"
tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>
Mais informações:
Cache semântico
O cache semântico é uma técnica que melhora o desempenho das APIs LLM ao armazenar em cache os completamentos de prompts anteriores e reutilizá-los por meio da comparação da proximidade entre o vetor do prompt e solicitações anteriores. Essa técnica reduz o número de chamadas feitas ao back-end do serviço de IA, melhora os tempos de resposta para os usuários finais e pode ajudar a reduzir os custos.
No Gerenciamento de API, habilite o cache semântico usando o Redis Gerenciado do Azure ou outro cache externo compatível com o RediSearch e integrado ao Gerenciamento de API do Azure. Usando a API de embeddings, as políticas llm-semantic-cache-store e llm-semantic-cache-lookup armazenam e recuperam do cache completions de prompt que são semanticamente semelhantes. Essa abordagem garante a reutilização de conclusões, resultando em redução do consumo de token e melhor desempenho de resposta.
Mais informações:
- Configurar um cache externo no Gerenciamento de API do Azure
- Habilitar o cache semântico para APIs de IA no Gerenciamento de API do Azure
Recursos de dimensionamento nativos no Gerenciamento de APIs
O Gerenciamento de API também fornece recursos de dimensionamento internos para ajudar o gateway a lidar com grandes volumes de solicitações para suas APIs de IA. Esses recursos incluem a adição automática ou manual de unidades de escala de gateway e a adição de gateways regionais para implantações multirregionais. Recursos específicos dependem da camada de serviço de Gerenciamento de API.
Mais informações:
- Atualizar e dimensionar uma instância de Gerenciamento de API
- Implantar uma instância de Gerenciamento de API em várias regiões
Observação
Embora o Gerenciamento de API possa dimensionar a capacidade do gateway, você também precisa dimensionar e distribuir o tráfego para seus back-ends de IA para acomodar o aumento da carga (consulte a seção Resiliência ). Por exemplo, para aproveitar a distribuição geográfica do sistema em uma configuração de várias regiões, você deve implantar serviços de IA de back-end nas mesmas regiões que os gateways de Gerenciamento de API.
Segurança e segurança
Um gateway de IA protege e controla o acesso às APIs de IA. Com o gateway de IA, você pode:
- Use identidades gerenciadas para autenticar nos serviços de IA do Azure, para que você não precise de chaves de API para autenticação
- Configurar a autorização do OAuth para aplicativos e agentes de IA para acessar APIs ou servidores MCP usando o gerenciador de credenciais do Gerenciamento de API
- Aplicar políticas para moderar automaticamente os prompts LLM usando Azure AI Content Safety
Mais informações:
- Autenticar e autorizar o acesso às APIs LLM
- Sobre as credenciais de API e o gerenciador de credenciais
- Impor verificações de segurança de conteúdo em solicitações de LLM
Resiliency
Um desafio ao criar aplicativos inteligentes é garantir que os aplicativos sejam resilientes a falhas de back-end e possam lidar com cargas altas. Ao configurar seus pontos de extremidade LLM com back-ends no Gerenciamento de API do Azure, você pode balancear a carga entre eles. Você também pode definir regras de disjuntor para interromper o encaminhamento de solicitações para back-ends do serviço de IA se elas não estiverem respondendo.
Balanceador de carga
O balanceador de carga de back-end dá suporte ao balanceamento de carga round robin, ponderado, baseado em prioridade e com reconhecimento de sessão. Você pode definir uma estratégia de distribuição de carga que atenda aos seus requisitos específicos. Por exemplo, defina prioridades na configuração do balanceador de carga para garantir a utilização ideal de endpoints específicos do Microsoft Foundry, especialmente aqueles adquiridos como instâncias de PTU.
Disjuntor
O disjuntor de back-end apresenta a duração dinâmica da viagem, aplicando valores do cabeçalho Retry-After fornecido pelo back-end. Esse recurso garante a recuperação precisa e oportuna dos back-ends, maximizando a utilização de seus back-ends de prioridade.
Mais informações:
Observabilidade e governança
O Gerenciamento de API fornece recursos abrangentes de monitoramento e análise para acompanhar padrões de uso de token, otimizar custos, garantir a conformidade com suas políticas de governança de IA e solucionar problemas com suas APIs de IA. Use estes recursos para:
- Registre solicitações e completamentos no Azure Monitor
- Rastreia métricas de token por consumidor no Application Insights
- Exibir o painel de monitoramento interno
- Configurar políticas com expressões personalizadas
- Gerenciar cotas de token entre aplicativos
Por exemplo, você pode emitir métricas de token com a política llm-emit-token-metric e adicionar dimensões personalizadas que você pode usar para filtrar a métrica no Azure Monitor. O exemplo a seguir emite métricas de token com dimensões para endereço IP do cliente, ID de API e ID de usuário (de um cabeçalho personalizado):
<llm-emit-token-metric namespace="llm-metrics">
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" value="@(context.Api.Id)" />
<dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>
Além disso, habilita o registro em log para APIs de LLM no Gerenciamento de API do Azure para controlar o uso, as solicitações e as conclusões do token para cobrança e auditoria. Depois de habilitar o registro em log, você poderá analisar os logs no Application Insights e usar um painel interno no Gerenciamento de API para exibir padrões de consumo de token em suas APIs de IA.
Mais informações:
Experiência do desenvolvedor
Use o gateway de IA e o Centro de API do Azure para simplificar o desenvolvimento e a implantação de suas APIs de IA e servidores MCP. Além das experiências de importação e configuração de política amigáveis para cenários comuns de IA no Gerenciamento de API, você pode aproveitar:
- Fácil registro de APIs e servidores MCP em um catálogo organizacional no Centro de API do Azure
- Acesso à API de autosserviço e ao servidor MCP por meio de portais de desenvolvedor no Gerenciamento de API e Centro de API.
- Kit de ferramentas de política de Gerenciamento de API para personalização
- Conector do Copilot Studio do Centro de API para estender os recursos dos agentes de IA
Mais informações:
- Registrar e descobrir servidores MCP no Centro de API
- Sincronizar APIs e servidores MCP entre o Gerenciamento de API e o Centro de API
- Portal do desenvolvedor de Gerenciamento de API
- Portal do Centro de API
- Kit de ferramentas de políticas do Gerenciamento de API do Azure
- Conector do Copilot Studio do Centro de API
Acesso antecipado aos recursos do gateway de IA
Como cliente de gestão de APIs, você pode obter acesso antecipado a novas funcionalidades por meio do canal de lançamento do Gateway de IA. Esse acesso permite que você experimente as inovações mais recentes do gateway de IA antes que elas estejam geralmente disponíveis e forneça comentários para ajudar a moldar o produto.
Mais informações:
Laboratórios e exemplos de código
- Laboratórios de recursos de gateway da IA
- Workshop de gateway de IA
- Azure OpenAI com Gerenciamento de API (Node.js)
- Código de exemplo do Python
Arquitetura e design
- Arquitetura de referência do gateway de IA usando o Gerenciamento de API
- Acelerador de zona de destino do gateway do hub de IA
- Criando e implementando uma solução de gateway com recursos do Azure OpenAI
- Utilize um gateway para acessar várias implantações do Azure OpenAI