Partilhar via


Registre o uso, prompts e conclusão de tokens para APIs LLM

Neste artigo, você aprenderá a configurar o log do Azure Monitor para solicitações e respostas de API LLM no Gerenciamento de API do Azure.

O administrador do Gerenciamento de API pode usar os logs de solicitação e resposta da API LLM juntamente com os logs do gateway de Gerenciamento de API para cenários como os seguintes:

  • Calcular uso para faturamento - Calcular métricas de uso para faturamento com base no número de tokens consumidos por cada aplicativo ou consumidor de API (por exemplo, segmentado por ID de assinatura ou endereço IP).

  • Inspecionar mensagens - Inspecione e analise prompts e finalizações para ajudar na depuração, auditoria e avaliação de modelos.

Saiba mais sobre:

Pré-requisitos

  • Uma instância de Gerenciamento de API do Azure.
  • Uma API de conclusão de chat LLM gerenciada integrada ao Gerenciamento de API do Azure. Por exemplo, importar uma API do Microsoft Foundry.
  • Acesso a um espaço de trabalho do Azure Log Analytics.
  • Permissões apropriadas para definir configurações de diagnóstico e acessar logs no Gerenciamento de API.

Habilitar a configuração de diagnóstico para logs de API LLM

Habilite uma configuração de diagnóstico para registrar solicitações que o gateway processa para APIs REST de modelo de linguagem grande. Para cada solicitação, o Azure Monitor recebe dados sobre o uso do token (tokens de prompt, tokens de conclusão e tokens totais), o nome do modelo usado e, opcionalmente, as mensagens de solicitação e resposta (prompt e conclusão). Grandes solicitações e respostas são divididas em várias entradas de log com números de sequência para reconstrução posterior, se necessário.

A seguir estão algumas etapas breves para habilitar uma configuração de diagnóstico que direciona os logs da API LLM para um espaço de trabalho do Log Analytics. Para obter mais informações, consulte Habilitar configuração de diagnóstico para logs do Azure Monitor.

  1. No portal do Azure, navegue até sua instância de Gerenciamento de API do Azure.
  2. No menu à esquerda, em Monitoramento, selecione Configurações de diagnóstico>+ Adicionar configuração de diagnóstico.
  3. Configure a configuração para enviar logs do gateway do AI para um espaço de trabalho do Log Analytics:
    • Em Logs, selecione Logs relacionados ao gateway de IA generativo.
    • Em Detalhes do destino, selecione Enviar para o espaço de trabalho do Log Analytics.
  4. Revise ou defina outras configurações e faça alterações, se necessário.
  5. Selecione Guardar.

Captura de tela da configuração de diagnóstico para logs de gateway de IA no portal.

Habilitar o registro de solicitações ou respostas para a API LLM

Você pode habilitar as configurações de diagnóstico para todas as APIs ou personalizar o registro em log para APIs específicas. A seguir estão etapas breves para registrar solicitações LLM e mensagens de resposta para uma API. Para obter mais informações, consulte Modificar configurações de log da API.

  1. No menu esquerdo da sua instância de Gerenciamento de API, selecione APIs de APIs > e, em seguida, selecione o nome da API.
  2. Selecione a guia Configurações na barra superior.
  3. Role para baixo até a seção Logs de Diagnóstico e selecione a guia Azure Monitor .
  4. Em Registrar mensagens LLM, selecione Habilitado.
  5. Selecione Solicitações de log e insira um tamanho em bytes, como 32768.
  6. Selecione Concluir o log e insira um tamanho em bytes, como 32768.
  7. Revise outras configurações e faça alterações, se necessário. Selecione Guardar.

Captura de tela mostrando a ativação do log LLM para uma API no portal.

Observação

Se você habilitar a coleta, as mensagens de solicitação ou resposta LLM de até 32 KB de tamanho serão enviadas em uma única entrada. Mensagens maiores que 32 KB são divididas e registradas em blocos de 32 KB com números de sequência para reconstrução posterior. As mensagens de solicitação e as mensagens de resposta não podem exceder 2 MB cada.

Revisar a pasta de trabalho de análise para APIs LLM

O painel do Azure Analytics baseado no Monitor fornece informações sobre o uso da API LLM e o consumo de token usando dados agregados em um espaço de trabalho do Log Analytics. Saiba mais sobre o Analytics no Gerenciamento de API.

  1. No menu esquerdo da sua instância de Gerenciamento de API, selecione Monitoring>Analytics.
  2. Selecione a guia Modelos de idioma .
  3. Analise métricas e visualizações para consumo e solicitações de token de API LLM em um intervalo de tempo selecionado.

Captura de tela da análise para APIs de modelo de linguagem no portal.

Revise os logs do Azure Monitor para solicitações e respostas

Analise o log ApiManagementGatewayLlmLog para obter detalhes sobre solicitações e respostas LLM, incluindo consumo de token, implantação de modelo usado e outros detalhes em intervalos de tempo específicos.

As solicitações e respostas (incluindo mensagens em partes para solicitações e respostas grandes) aparecem em entradas de log separadas que você pode correlacionar usando o CorrelationId campo.

Para fins de auditoria, use uma consulta Kusto semelhante à consulta a seguir para unir cada solicitação e resposta em um único registro. Ajuste a consulta para incluir os campos que pretende controlar.

ApiManagementGatewayLlmLog
| extend RequestArray = parse_json(RequestMessages)
| extend ResponseArray = parse_json(ResponseMessages)
| mv-expand RequestArray
| mv-expand ResponseArray
| project
    CorrelationId,
    RequestContent = tostring(RequestArray.content),
    ResponseContent = tostring(ResponseArray.content)
| summarize
    Input = strcat_array(make_list(RequestContent), " . "),
    Output = strcat_array(make_list(ResponseContent), " . ")
    by CorrelationId
| where isnotempty(Input) and isnotempty(Output)

Captura de tela dos resultados da consulta para logs LLM no portal.

Carregar dados para o Microsoft Foundry para avaliação de modelos

Pode exportar dados de registo de LLMs como um conjunto de dados para avaliação de modelos no Microsoft Foundry. Com a avaliação de modelos, você pode avaliar o desempenho de seus modelos e aplicativos de IA generativa em relação a um modelo de teste ou conjunto de dados usando métricas de avaliação internas ou personalizadas.

Para usar logs LLM como um conjunto de dados para avaliação de modelo:

  1. Junte mensagens de solicitação e resposta LLM em um único registro para cada interação, conforme mostrado na seção anterior. Inclua os campos que você deseja usar para a avaliação do modelo.
  2. Exporte o conjunto de dados para formato CSV, que é compatível com o Microsoft Foundry.
  3. No portal Microsoft Foundry, crie uma nova avaliação para carregar e avaliar o conjunto de dados.

Para detalhes sobre como criar e executar uma avaliação de modelos no Microsoft Foundry, consulte Avaliar modelos e aplicações de IA generativa utilizando o Microsoft Foundry.