Compartilhar via


Observabilidade na IA generativa

Observação

Este documento se refere ao portal do Microsoft Foundry (clássico).

🔄 Alterne para a documentação nova do Microsoft Foundry se você estiver usando o novo portal.

Observação

Este documento se refere ao portal do Microsoft Foundry (novo).

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

No mundo orientado por IA de hoje, o GenAIOps (Generative AI Operations) está revolucionando a forma como as organizações criam e implantam sistemas inteligentes. À medida que as empresas usam cada vez mais agentes de IA e aplicativos para transformar a tomada de decisões, aprimorar as experiências do cliente e impulsionar a inovação, um elemento é fundamental: estruturas de avaliação robustas. A avaliação não é apenas um ponto de verificação. É a base da qualidade e da confiança em aplicativos de IA. Sem avaliação e monitoramento rigorosos, os sistemas de IA podem produzir conteúdo que é:

  • Fabricado ou sem base na realidade
  • Irrelevante ou incoerente
  • Prejudicial na perpetuação de riscos e estereótipos de conteúdo
  • Perigoso na disseminação de desinformação
  • Vulnerável a explorações de segurança

É aí que a observabilidade se torna essencial. Esses recursos medem a frequência e a gravidade dos riscos nas saídas de IA, permitindo que as equipes resolvam sistematicamente questões de qualidade, segurança e segurança durante todo o percurso de desenvolvimento de IA, desde a seleção do modelo certo até o monitoramento do desempenho, qualidade e segurança de produção.

O que é observabilidade?

A observabilidade da IA refere-se à capacidade de monitorar, entender e solucionar problemas de sistemas de IA em todo o ciclo de vida. Envolve coletar e analisar sinais como métricas de avaliação, logs, rastreamentos e saídas de modelo e agente para obter visibilidade sobre desempenho, qualidade, segurança e integridade operacional.

O que são avaliadores?

Os avaliadores são ferramentas especializadas que medem a qualidade, a segurança e a confiabilidade das respostas de IA. Implementando avaliações sistemáticas em todo o ciclo de vida de desenvolvimento de IA, as equipes podem identificar e resolver possíveis problemas antes de afetar os usuários. Os seguintes avaliadores com suporte fornecem recursos de avaliação abrangentes em diferentes tipos e preocupações de aplicativos de IA:

Finalidade geral

Avaliador Propósito Entradas
Coerência Mede a consistência lógica e o fluxo de respostas. Consulta, resposta
Fluência Mede a qualidade e a legibilidade da linguagem natural. Resposta
controle de qualidade Mede de forma abrangente vários aspectos de qualidade na resposta a perguntas. Consulta, contexto, resposta, verdade básica

Para saber mais, consulte Avaliadores de uso geral.

Similaridade textual

Avaliador Propósito Entradas
Similaridade Medida de similaridade textual assistida por IA. Consulta, contexto, verdade básica
F1_score Média harmônica de precisão e recuperação nas sobreposições de tokens entre a resposta e a verdade básica. Resposta, verdade básica
BLEU A pontuação de Subestudo de Avaliação Bilíngue das medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica. Resposta, verdade básica
GLEU A variante Google-BLEU para medidas de avaliação no nível da sentença se sobrepõe em n-gramas entre a resposta e a verdade básica. Resposta, verdade básica
ROUGE O estudo orientado à recordação para avaliação de conceitos mede sobreposições em n-gramas entre a resposta e a verdade básica. Resposta, verdade básica
METEORO A métrica para avaliação da tradução com ordenação explícita mede as sobreposições em n-gramas entre a resposta e a verdade básica. Resposta, verdade básica

Para saber mais, consulte Avaliadores de similaridade textual

RAG (geração aumentada de recuperação)

Avaliador Propósito Entradas
Recuperação Mede a eficiência com que o sistema recupera informações relevantes. Consulta, contexto
Recuperação de documento (versão prévia) Mede a precisão dos resultados de recuperação com base na verdade básica. Verdade básica, documentos recuperados
Fundamentação Mede o quão consistente é a resposta em relação ao contexto recuperado. Consulta (opcional), contexto, resposta
Aterramento Pro (versão prévia) Mede se a resposta é consistente com relação ao contexto recuperado. Consulta, contexto, resposta
Relevância Mede o quão relevante é a resposta em relação à consulta. Consulta, resposta
Integridade da resposta (versão prévia) Mede até que ponto a resposta está completa (não faltam informações críticas) com relação à verdade básica. Resposta, verdade básica

Para saber mais, consulte Avaliadores de Geração Aumentada de Recuperação (RAG).

Segurança e segurança (versão prévia)

Avaliador Propósito Entradas
Ódio e injustiça Identifica conteúdo tendencioso, discriminatório ou odioso. Consulta, resposta
Sexual Identifica conteúdo sexual inadequado. Consulta, resposta
Violência Detecta conteúdo violento ou incitação. Consulta, resposta
Automutilação Detecta conteúdo que promove ou descreve a automutilação. Consulta, resposta
Segurança do conteúdo Avaliação abrangente de várias questões de segurança. Consulta, resposta
Materiais protegidos Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais. Consulta, resposta
Vulnerabilidade de código Identifica problemas de segurança no código gerado. Consulta, resposta
Atributos sem base Detecta informações fabricadas ou alucinadas inferidas das interações do usuário. Consulta, contexto, resposta

Para saber mais, consulte Avaliadores de risco e segurança.

Agentes (versão prévia)

Avaliador Propósito Entradas
Resolução de Intenção Mede a precisão com que o agente identifica e aborda as intenções do usuário. Consulta, resposta
Adesão à tarefa Mede o quão bem o agente executa as tarefas identificadas. Consulta, resposta, definições de ferramenta (opcional)
Precisão de chamada de ferramenta Mede a capacidade do agente de selecionar e chamar as ferramentas corretas. Consulta, resposta ou chamadas de ferramenta, definições de ferramenta
Avaliador Propósito Entradas
Adesão à tarefa Mede se o agente conclui as tarefas identificadas de acordo com as instruções do sistema. Definições de Consulta, Resposta e Ferramenta (Opcional)
Conclusão da tarefa Mede se o agente concluiu com êxito a tarefa solicitada de ponta a ponta. Definições de Consulta, Resposta e Ferramenta (Opcional)
Resolução de Intenção Mede a precisão com que o agente identifica e aborda as intenções do usuário. Definições de Consulta, Resposta e Ferramenta (Opcional)
Eficiência na Navegação de Tarefas Determina se a sequência de etapas do agente corresponde a um caminho ideal ou esperado para medir a eficiência. Resposta, Verdade de base
Precisão de chamada de ferramenta Mede a qualidade geral das chamadas de ferramenta, incluindo seleção, correção de parâmetro e eficiência. Consulta, Definições de Ferramenta, Chamadas de Ferramenta (Opcional), Resposta
Seleção de Ferramentas Mede se o agente selecionou as ferramentas mais apropriadas e eficientes para uma tarefa. Consulta, Definições de Ferramenta, Chamadas de Ferramenta (Opcional), Resposta
Precisão da entrada da ferramenta Valida se todos os parâmetros de chamada de ferramenta estão corretos com critérios rigorosos, incluindo fundamento, tipo, formato, integridade e adequação. Consulta, Resposta, Definições de Ferramenta
Uso da saída da ferramenta Mede se o agente interpreta e utiliza corretamente os resultados da ferramenta de forma contextual em suas respostas e em chamadas subsequentes. Definições de Consulta, Resposta e Ferramenta (Opcional)
Sucesso na chamada de ferramenta Avalia se todas as chamadas de ferramenta foram executadas com êxito sem falhas técnicas. Resposta, Definições de Ferramenta (Opcional)

Para saber mais, consulte Avaliadores do agente.

Alunos do OpenAI do Azure (versão prévia)

Avaliador Propósito Entradas
Rotulador de Modelo Classifica o conteúdo usando diretrizes e rótulos personalizados. Consulta, resposta, verdade básica
Verificador de cadeia de caracteres Executa validações de texto flexíveis e correspondência de padrões. Resposta
Similaridade de texto Avalia a qualidade do texto ou determina a proximidade semântica. Resposta, verdade básica
Marcador de Modelo Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas. Consulta, resposta, verdade básica

Para saber mais, consulte Avaliadores do OpenAI do Azure.

Avaliadores no ciclo de vida de desenvolvimento

Usando esses avaliadores estrategicamente em todo o ciclo de vida de desenvolvimento, as equipes podem criar aplicativos de IA mais confiáveis, seguros e eficazes que atendam às necessidades do usuário, minimizando possíveis riscos.

Diagrama do ciclo de vida do GenAIOps empresarial, mostrando a seleção do modelo, a criação de um aplicativo de IA e a operacionalização.

Os três estágios da avaliação do GenAIOps

GenAIOps usa os três estágios a seguir.

Seleção de modelo base

Antes de criar seu aplicativo, você precisa selecionar a base certa. Essa avaliação inicial ajuda você a comparar modelos diferentes com base em:

  • Qualidade e precisão: quão relevantes e coerentes são as respostas do modelo?
  • Desempenho da tarefa: o modelo lida com seus casos de uso específicos com eficiência?
  • Considerações éticas: o modelo está livre de preconceitos prejudiciais?
  • Perfil de segurança: Qual é o risco de gerar conteúdo não seguro?

Ferramentas disponíveis: parâmetro de comparação do Microsoft Foundry para comparar modelos em conjuntos de dados públicos ou seus próprios dados e o SDK de Avaliação de IA do Azure para testar pontos de extremidade de modelo específicos.

Avaliação de pré-produção

Depois de selecionar um modelo base, a próxima etapa é desenvolver um agente ou aplicativo de IA. Antes de implantar em um ambiente de produção, o teste completo é essencial para garantir que o agente de IA ou o aplicativo esteja pronto para uso no mundo real.

A avaliação de pré-produção envolve:

  • Teste com conjuntos de dados de avaliação: esses conjuntos de dados simulam interações realistas do usuário para garantir que o agente de IA seja executado conforme o esperado.
  • Identificando casos de borda: encontrar cenários em que a qualidade de resposta do agente de IA pode degradar ou produzir saídas indesejáveis.
  • Avaliando a robustez: garantir que o agente de IA possa lidar com uma variedade de variações de entrada sem quedas significativas na qualidade ou segurança.
  • Medição das principais métricas: Métricas como adesão à tarefa, fundamentação de resposta, relevância e segurança são avaliadas para confirmar a preparação para a produção.

Diagrama da avaliação de pré-produção para modelos e aplicativos com as seis etapas.

O estágio de pré-produção atua como uma verificação de qualidade final, reduzindo o risco de implantar um agente ou aplicativo de IA que não atenda aos padrões de segurança ou desempenho desejados.

Ferramentas e abordagens de avaliação:

  • Traga seus próprios dados: você pode avaliar seus agentes e aplicativos de IA na pré-produção usando seus próprios dados de avaliação com avaliadores com suporte, incluindo qualidade, segurança ou avaliadores personalizados e exibir resultados por meio do portal do Foundry. Use o assistente de avaliação do Foundry ou os avaliadores com suporte do SDK de Avaliação de IA do Azure , incluindo qualidade de geração, segurança ou avaliadores personalizados. Exiba os resultados usando o portal do Foundry.

  • Simuladores e agente de equipe vermelha de IA: se você não tiver dados de avaliação (dados de teste), os simuladores do SDK de Avaliação da IA do Azure podem ajudar gerando consultas relacionadas ao tópico ou adversárias. Esses simuladores testam a resposta do modelo a consultas apropriadas para a situação ou semelhantes a ataques (casos extremos).

    • O agente de equipe vermelha de IA simula ataques adversários complexos contra seu sistema de IA usando uma ampla gama de ataques de segurança e proteção usando a estrutura aberta da Microsoft para Ferramenta de Identificação de Risco Python ou PyRIT.
    • Simuladores adversários injetam consultas estáticas que imitam possíveis riscos de segurança ou ataques de segurança, como tentativas de jailbreak, ajudando a identificar limitações e preparando o modelo para condições inesperadas.
    • Simuladores apropriados para contexto geram conversas típicas e relevantes que você esperaria dos usuários para testar a qualidade das respostas. Com simuladores apropriados para contexto, você pode avaliar métricas como aterramento, relevância, coerência e fluência de respostas geradas.

    As verificações automatizadas usando o agente de equipe vermelha de IA aprimoram a avaliação de risco de pré-produção testando sistematicamente os aplicativos de IA quanto a riscos. Esse processo envolve cenários de ataque simulados para identificar pontos fracos em respostas de modelo antes da implantação do mundo real. Ao executar verificações de agrupamento vermelho de IA, você pode detectar e atenuar possíveis problemas de segurança antes da implantação. Recomenda-se que essa ferramenta seja usada com processos humanos no circuito, como a sondagem convencional de equipes vermelhas de IA, para ajudar a acelerar a identificação de riscos e auxiliar na avaliação por um especialista humano.

Como alternativa, você também pode usar o portal do Foundry para testar seus aplicativos de IA generativos.

  • Traga seus próprios dados: você pode avaliar seus aplicativos de IA na pré-produção usando seus próprios dados de avaliação com avaliadores compatíveis, incluindo qualidade de geração, segurança ou avaliadores personalizados e exibir resultados por meio do portal do Foundry. Use o assistente de avaliação do Foundry ou os avaliadores com suporte do SDK de Avaliação do Azure AI, incluindo avaliadores de qualidade de geração, segurança ou personalizados, e visualize os resultados por meio do portal do Foundry.

  • Simuladores e agente de equipe vermelha de IA: se você não tiver dados de avaliação (dados de teste), os simuladores podem ajudar gerando consultas relacionadas ao tópico ou adversárias. Esses simuladores testam a resposta do modelo a consultas apropriadas para a situação ou semelhantes a ataques (casos extremos).

    O agente de equipe vermelha de IA simula ataques adversários complexos contra seu sistema de IA usando uma ampla gama de ataques de segurança e proteção usando a estrutura aberta da Microsoft para Ferramenta de Identificação de Risco Python ou PyRIT.

    As verificações automatizadas usando o agente de equipe vermelha de IA aprimoram a avaliação de risco de pré-produção testando sistematicamente os aplicativos de IA quanto a riscos. Esse processo envolve cenários de ataque simulados para identificar pontos fracos em respostas de modelo antes da implantação do mundo real. Ao executar verificações de agrupamento vermelho de IA, você pode detectar e atenuar possíveis problemas de segurança antes da implantação. Recomenda-se que essa ferramenta seja usada com processos humanos no circuito, como a sondagem convencional de equipes vermelhas de IA, para ajudar a acelerar a identificação de riscos e auxiliar na avaliação por um especialista humano.

Como alternativa, você também pode usar o portal do Foundry para testar seus aplicativos de IA generativos.

Depois de obter resultados satisfatórios, você pode implantar o aplicativo de IA em produção.

Monitoramento pós-produção

Após a implantação, o monitoramento contínuo garante que seu aplicativo de IA mantenha a qualidade em condições reais.

Após a implantação, o monitoramento contínuo garante que seu aplicativo de IA mantenha a qualidade em condições reais.

  • Métricas operacionais: medição regular das principais métricas operacionais do agente de IA.
  • Avaliação contínua: permite a avaliação de qualidade e segurança do tráfego de produção a uma taxa amostrada.
  • Avaliação agendada: permite a avaliação agendada de qualidade e segurança usando um conjunto de dados de teste para detectar descompasso nos sistemas subjacentes.
  • Equipe vermelha agendada: fornece funcionalidades de teste adversário agendado para investigar vulnerabilidades de segurança e proteção.
  • Alertas do Azure Monitor: ação rápida quando ocorrem saídas prejudiciais ou inadequadas. Configure alertas para avaliação contínua para ser notificado quando os resultados da avaliação ficarem abaixo do limite de aprovação em produção.

O monitoramento eficaz ajuda a manter a confiança do usuário e permite uma resolução rápida de problemas.

A observabilidade fornece recursos de monitoramento abrangentes essenciais para o cenário de IA complexo e em rápida evolução atual. Integrada perfeitamente ao Application Insights do Azure Monitor, essa solução permite o monitoramento contínuo de aplicativos de IA implantados para garantir o desempenho, a segurança e a qualidade ideais em ambientes de produção.

O painel de Observabilidade do Foundry fornece insights em tempo real sobre métricas críticas. Ele permite que as equipes identifiquem e resolvam rapidamente problemas de desempenho, questões de segurança ou degradação da qualidade.

Para aplicativos baseados em agente, o Foundry oferece funcionalidades de avaliação contínua aprimoradas. Esses recursos podem fornecer visibilidade mais profunda das métricas de qualidade e segurança. Eles podem criar um ecossistema de monitoramento robusto que se adapta à natureza dinâmica dos aplicativos de IA, mantendo altos padrões de desempenho e confiabilidade.

Monitorando continuamente o comportamento do aplicativo de IA em produção, você pode manter experiências de usuário de alta qualidade e resolver rapidamente todos os problemas que surgirem.

Criando confiança por meio da avaliação sistemática

O GenAIOps estabelece um processo confiável para gerenciar aplicativos de IA durante todo o ciclo de vida. Implementando uma avaliação completa em cada estágio, desde a seleção de modelos até a implantação e além, as equipes podem criar soluções de IA que não são apenas poderosas, mas confiáveis e seguras.

Guia rápido de avaliação

Propósito Processo Parâmetros, diretrizes e exemplos
O que você está avaliando? Identificar ou criar avaliadores relevantes - Notebook de exemplo de desempenho e qualidade

- Qualidade da resposta de agentes

- Segurança e Proteção (Notebook de exemplo de Segurança e Proteção)

- Personalizado (Notebook de exemplo personalizado)
Quais dados você deve usar? Carregar ou gerar conjunto de dados relevante - Simulador genérico para medir Qualidade e Desempenho (notebook de exemplo de simulador genérico)

- Simulador adversarial para medir Segurança e Proteção (Notebook de exemplo do simulador adversarial)

- Agente de agrupamento vermelho de IA para executar verificações automatizadas para avaliar vulnerabilidades de segurança e proteção (exemplo de notebook de agente de agrupamento vermelho de IA)
Como executar avaliações em um conjunto de dados? Executar avaliação - Execuções de avaliação do agente

- Execução de nuvem remota

- Execução local
Como meu modelo/aplicativo foi executado? Analisar resultados - Exibir pontuações agregadas, exibir detalhes, detalhes da pontuação, comparar execuções de avaliação
Como posso melhorar? Fazer alterações no modelo, aplicativo ou avaliadores - Se os resultados da avaliação não se alinharem aos comentários humanos, ajuste o avaliador.

- Se os resultados da avaliação se alinharem aos comentários humanos, mas não atenderem aos limites de qualidade/segurança, aplique mitigações direcionadas. Exemplo de mitigações a serem aplicadas: Segurança de Conteúdo de IA do Azure
Propósito Processo Parâmetros, diretrizes e exemplos
O que você está avaliando? Identificar ou criar avaliadores relevantes - Qualidade do RAG

- Qualidade dos agentes

- Segurança e Proteção (Notebook de exemplo de Segurança e Proteção)

- Personalizado (Notebook de exemplo personalizado)
Quais dados você deve usar? Carregar ou gerar conjunto de dados relevante - Geração de conjunto de dados sintético

- Agente de agrupamento vermelho de IA para executar verificações automatizadas para avaliar vulnerabilidades de segurança e proteção (exemplo de notebook de agente de agrupamento vermelho de IA)
Como executar avaliações em um conjunto de dados? Executar avaliação - Execuções de avaliação do agente

- Execução de nuvem remota
Como meu modelo/aplicativo foi executado? Analisar resultados - Exibir pontuações agregadas, exibir detalhes, detalhes da pontuação, comparar execuções de avaliação
Como posso melhorar? Fazer alterações no modelo, aplicativo ou avaliadores - Se os resultados da avaliação não se alinharem aos comentários humanos, ajuste o avaliador.

- Se os resultados da avaliação se alinharem aos comentários humanos, mas não atenderem aos limites de qualidade/segurança, aplique mitigações direcionadas. Exemplo de mitigações a serem aplicadas: Segurança de Conteúdo de IA do Azure

Traga sua própria rede virtual para avaliação

Para fins de isolamento de rede, você pode trazer sua própria rede virtual para avaliação. Para saber mais, confira Como configurar um link privado.

Observação

Os dados de avaliação serão enviados ao Application Insights se o Application Insights estiver conectado. O suporte à rede virtual para Application Insights e rastreamento não está disponível.

Importante

Para evitar falhas de avaliação e de equipe vermelha, atribua a função de Usuário da IA do Azure à Identidade Gerenciada do projeto durante a configuração inicial do projeto.

Suporte à região da rede virtual

Traga sua própria rede virtual para avaliação, o que tem suporte em todas as regiões, exceto Índia Central, Leste da Ásia, Norte da Europa e Catar Central.

Suporte de regiões

Atualmente, alguns avaliadores assistidos por IA estão disponíveis apenas nas seguintes regiões:

Região Ódio e injustiça, Sexual, Violento, Automutilação, Ataque indireto, Vulnerabilidades de código, Atributos não fundamentados Fundamentação Pro Material protegido
Leste dos EUA 2 Suportado Suportado Suportado
Suécia Central Suportado Suportado Não aplicável
Centro-Norte dos EUA Suportado Não aplicável Não aplicável
França Central Suportado Não aplicável Não aplicável
Oeste da Suíça Suportado Não aplicável Não aplicável

Suporte à região de avaliação do playground do agente

Região Situação
Leste dos EUA Suportado
Leste dos EUA 2 Suportado
Oeste dos EUA Suportado
Oeste dos EUA 2 Suportado
Oeste dos EUA 3 Suportado
França Central Suportado
Leste da Noruega Suportado
Suécia Central Suportado

Preços

Recursos de observabilidade, como Avaliações de Risco e Segurança e Avaliações Contínuas, são cobrados com base no consumo, conforme listado em nossa página de preços do Azure.