Partilhar via


Observabilidade na IA generativa

Observação

Este documento refere-se ao portal Microsoft Foundry (clássico).

🔄 Altere para a nova documentação do Microsoft Foundry se estiver a utilizar o novo portal.

Observação

Este documento refere-se ao portal Microsoft Foundry (novo ).

Importante

Os itens marcados como (pré-visualização) neste artigo estão neste momento em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para trabalhos em produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

No mundo atual orientado por IA, as Generative AI Operations (GenAIOps) estão revolucionando a forma como as organizações constroem e implantam sistemas inteligentes. À medida que as empresas utilizam cada vez mais agentes e aplicações de IA para transformar a tomada de decisões, melhorar a experiência do cliente e impulsionar a inovação, um elemento é fundamental: quadros robustos de avaliação. A avaliação não é apenas um ponto de verificação. É a base da qualidade e confiança nas aplicações de IA. Sem uma avaliação e monitorização rigorosas, os sistemas de IA podem produzir conteúdos que são:

  • Fabricado ou sem fundamento na realidade
  • Irrelevante ou incoerente
  • Nocivo por perpetuar riscos e estereótipos nos conteúdos
  • Perigoso na disseminação de desinformação
  • Vulnerável a explorações de segurança

É aqui que a observabilidade se torna essencial. Estas capacidades medem tanto a frequência como a gravidade dos riscos nos resultados da IA, permitindo às equipas abordar sistematicamente as preocupações de qualidade, segurança e proteção ao longo de toda a jornada de desenvolvimento da IA — desde a escolha do modelo certo até ao monitoramento do desempenho, qualidade e segurança da produção.

O que é observabilidade?

A observabilidade da IA refere-se à capacidade de monitorizar, compreender e resolver problemas de sistemas de IA ao longo do seu ciclo de vida. Envolve a recolha e análise de sinais como métricas de avaliação, registos, vestígios e resultados de modelos e agentes para obter visibilidade sobre desempenho, qualidade, segurança e saúde operacional.

O que são os avaliadores?

Os avaliadores são ferramentas especializadas que medem a qualidade, segurança e fiabilidade das respostas de IA. Ao implementar avaliações sistemáticas ao longo do ciclo de vida do desenvolvimento da IA, as equipas podem identificar e resolver potenciais problemas antes que afetem os utilizadores. Os seguintes avaliadores apoiados fornecem capacidades abrangentes de avaliação em diferentes tipos e preocupações de aplicações de IA:

Finalidade geral

Avaliador Propósito Insumos
Coerência Mede a consistência lógica e o fluxo de respostas. Consulta, resposta
Fluência Mede a qualidade e legibilidade da linguagem natural. Resposta
GQ Mede de forma abrangente vários aspetos de qualidade na resposta a perguntas. Consulta, contexto, resposta, verdade fundamental

Para saber mais, consulte Avaliadores de uso geral.

Semelhança textual

Avaliador Propósito Insumos
Semelhança Medição de similaridade textual assistida por IA. Consulta, contexto, verdade fundamental
Pontuação F1 Média harmônica de precisão e recordação em sobreposições simbólicas entre resposta e verdade fundamental. Resposta, verdade fundamental
UEBL Avaliação Bilíngue A pontuação do Understudy para medidas de qualidade de tradução sobrepõe-se em n-gramas entre a resposta e a verdade básica. Resposta, verdade fundamental
GLEU Google-BLEU variante para medidas de avaliação de nível de sentença sobrepõe-se em n-gramas entre resposta e verdade fundamentada. Resposta, verdade fundamental
ROUGE Recall-Oriented Understudy for Gisting Evaluation mede sobreposições em n-gramas entre resposta e veracidade fundamental. Resposta, verdade fundamental
METEORO As medidas da Métrica para Avaliação da Tradução com Ordenação Explícita sobrepõem-se em n-gramas entre a resposta e a verdade fundamental. Resposta, verdade fundamental

Para saber mais, consulte Avaliadores de semelhança textual

RAG (geração aumentada de recuperação)

Avaliador Propósito Insumos
Recuperação Mede a eficácia com que o sistema recupera informações relevantes. Consulta, contexto
Recuperação de Documentos (pré-visualização) Mede a precisão na recuperação de resultados dada a verdade do terreno. Verdade fundamental, documentos recuperados
Fundamentação Mede o quão consistente é a resposta em relação ao contexto recuperado. Consulta (opcional), contexto, resposta
Groundedness Pro (pré-visualização) Mede se a resposta é consistente em relação ao contexto recuperado. Consulta, contexto, resposta
Pertinência Mede o quão relevante é a resposta em relação à consulta. Consulta, resposta
Integralidade da Resposta (pré-visualização) Mede até que ponto a resposta é completa (não faltando informação crítica) em relação à verdade fundamental. Resposta, verdade fundamental

Para saber mais, consulte Avaliadores de geração aumentada de recuperação (RAG).

Segurança e proteção (pré-visualização)

Avaliador Propósito Insumos
Ódio e injustiça Identifica conteúdo tendencioso, discriminatório ou odioso. Consulta, resposta
Sexual Identifica conteúdo sexual impróprio. Consulta, resposta
Violência Deteta conteúdo violento ou incitamento. Consulta, resposta
Automutilação Deteta conteúdo que promove ou descreve automutilação. Consulta, resposta
Segurança de conteúdo Avaliação exaustiva de várias questões de segurança. Consulta, resposta
Materiais Protegidos Deteta o uso não autorizado de conteúdo protegido por direitos de autor. Consulta, resposta
Vulnerabilidade de código Identifica problemas de segurança no código gerado. Consulta, resposta
Atributos sem fundamento Deteta informações fabricadas ou alucinadas inferidas a partir de interações do usuário. Consulta, contexto, resposta

Para saber mais, consulte Avaliadores de risco e segurança.

Agentes (pré-visualização)

Avaliador Propósito Insumos
Resolução de intenções Mede a precisão com que o agente identifica e aborda as intenções do usuário. Consulta, resposta
Adesão à tarefa Mede o quão bem o agente executa as tarefas identificadas. Definições de consulta, resposta e ferramenta (opcional)
Precisão no acionamento da ferramenta Mede o quão bem o agente seleciona e chama as ferramentas corretas. Consulta, resposta ou chamadas de ferramentas, definições de ferramentas
Avaliador Propósito Insumos
Adesão à tarefa Mede se o agente cumpre tarefas identificadas de acordo com instruções do sistema. Definições de Consulta, Resposta, Ferramenta (Opcional)
Conclusão da Tarefa Mede se o agente completou com sucesso a tarefa solicitada de ponta a ponta. Definições de Consulta, Resposta, Ferramenta (Opcional)
Resolução de intenções Mede a precisão com que o agente identifica e aborda as intenções do usuário. Definições de Consulta, Resposta, Ferramenta (Opcional)
Eficiência da Navegação de Tarefas Determina se a sequência de passos do agente corresponde a um caminho ótimo ou esperado para medir a eficiência. Resposta, verdade de base
Precisão no acionamento da ferramenta Mede a qualidade global das chamadas de ferramenta, incluindo seleção, correção dos parâmetros e eficiência. Consulta, Definições de ferramentas, chamadas de ferramenta (Opcional), Resposta
Seleção de Ferramentas Mede se o agente selecionou as ferramentas mais adequadas e eficientes para uma tarefa. Consulta, Definições de ferramentas, chamadas de ferramenta (Opcional), Resposta
Precisão do Input da Ferramenta Valida que todos os parâmetros das chamadas de ferramenta estão corretos, com critérios rigorosos que incluem aterramento, tipo, formato, completude e adequação. Definições de Consulta, Resposta, Ferramenta
Utilização do Output da Ferramenta Mede se o agente interpreta e utiliza corretamente as saídas da ferramenta de forma contextual nas respostas e chamadas subsequentes. Definições de Consulta, Resposta, Ferramenta (Opcional)
Sucesso da Chamada de Ferramenta Avalia se todas as chamadas de ferramenta foram executadas com sucesso sem falhas técnicas. Resposta, Definições de Ferramentas (Opcional)

Para saber mais, consulte Avaliadores de agentes.

Classificadores do Azure OpenAI (visualização)

Avaliador Propósito Insumos
Etiquetador de Modelos Classifica o conteúdo usando diretrizes e rótulos personalizados. Consulta, resposta, verdade fundamentada
Verificador de cordas Executa validações de texto flexíveis e correspondência de padrões. Resposta
Semelhança de texto Avalia a qualidade do texto ou determina a proximidade semântica. Resposta, verdade fundamental
Marcador de modelos Gera pontuações numéricas (intervalo personalizado) para o conteúdo com base em diretrizes personalizadas. Consulta, resposta, verdade fundamentada

Para saber mais, consulte Azure OpenAI Graders.

Avaliadores no ciclo de vida do desenvolvimento

Ao usar esses avaliadores estrategicamente durante todo o ciclo de vida do desenvolvimento, as equipes podem construir aplicativos de IA mais confiáveis, seguros e eficazes que atendam às necessidades do usuário enquanto minimizam os riscos potenciais.

Diagrama do ciclo de vida GenAIOps da empresa, mostrando a seleção de modelos, a construção de um aplicativo de IA e a operacionalização.

As três etapas da avaliação do GenAIOps

O GenAIOps usa os três estágios a seguir.

Seleção do modelo de base

Antes de construir a sua aplicação, precisa de escolher a fundação certa. Esta avaliação inicial ajuda-o a comparar diferentes modelos com base em:

  • Qualidade e precisão: quão relevantes e coerentes são as respostas do modelo?
  • Desempenho da tarefa: o modelo lida com seus casos de uso específicos de forma eficiente?
  • Considerações éticas: O modelo está isento de preconceitos prejudiciais?
  • Perfil de segurança: Qual é o risco de gerar conteúdos não seguros?

Ferramentas disponíveis: o Microsoft Foundry Benchmark para comparar modelos em conjuntos de dados públicos ou nos seus próprios dados, e o Azure AI Evaluation SDK para testar endpoints específicos de modelos.

Avaliação da pré-produção

Depois de selecionar um modelo base, o passo seguinte é desenvolver um agente ou aplicação de IA. Antes de implementar para um ambiente de produção, testes rigorosos são essenciais para garantir que o agente ou aplicação de IA está pronto para uso no mundo real.

A avaliação da pré-produção envolve:

  • Testes com conjuntos de dados de avaliação: Estes conjuntos de dados simulam interações realistas com os utilizadores para garantir que o agente de IA funciona conforme esperado.
  • Identificar casos limite: Encontrar cenários em que a qualidade da resposta do agente de IA possa degradar-se ou produzir resultados indesejáveis.
  • Avaliação da robustez: Garantir que o agente de IA consegue lidar com uma variedade de variações de entrada sem quedas significativas na qualidade ou segurança.
  • Medição de métricas-chave: Métricas como adesão à tarefa, fundamento da resposta, relevância e segurança são avaliadas para confirmar a prontidão para a produção.

Diagrama de avaliação de pré-produção para modelos e aplicações com as seis etapas.

A fase de pré-produção atua como uma verificação final de qualidade, reduzindo o risco de implementar um agente ou aplicação de IA que não cumpra os padrões de desempenho ou segurança desejados.

Ferramentas e abordagens de avaliação:

  • Traga os seus próprios dados: Pode avaliar os seus agentes e aplicações de IA em pré-produção usando os seus próprios dados de avaliação com avaliadores suportados, incluindo avaliadores de qualidade, segurança ou personalizados, e consultar os resultados através do portal Foundry. Use o assistente de avaliação do Foundry ou os avaliadores suportados pelo Azure AI Evaluation SDK , incluindo avaliadores de qualidade de geração, segurança ou personalizados. Veja os resultados utilizando o portal Foundry.

  • Simuladores e agente de red teaming de IA: Se não tiver dados de avaliação (dados de teste), os simuladores do Azure AI Evaluation SDK podem ajudar ao gerar consultas relacionadas com tópicos ou adversariais. Estes simuladores testam a resposta do modelo a consultas apropriadas à situação ou semelhantes a ataques (casos excepção).

    • O agente de red teaming de IA simula ataques adversários complexos contra o seu sistema de IA, utilizando uma vasta gama de ataques de segurança e proteção, utilizando o framework aberto da Microsoft para Python Risk Identification Tool, ou PyRIT.
    • Os simuladores adversariais injetam consultas estáticas que imitam potenciais riscos de segurança ou ataques de segurança, como tentativas de jailbreak, ajudando a identificar limitações e a preparar o modelo para condições inesperadas.
    • Simuladores adequados ao contexto geram conversas típicas e relevantes que se esperaria dos utilizadores para testar a qualidade das respostas. Com simuladores adequados ao contexto pode avaliar métricas como fundamento, relevância, coerência e fluência das respostas geradas.

    As varreduras automáticas usando o agente de red teaming de IA melhoram a avaliação de risco pré-produção ao testar sistematicamente aplicações de IA para identificar riscos. Esse processo envolve cenários de ataque simulados para identificar fraquezas nas respostas do modelo antes da implantação no mundo real. Ao executar verificações de agrupamento vermelho de IA, você pode detetar e mitigar possíveis problemas de segurança antes da implantação. Recomenda-se que esta ferramenta seja utilizada em processos com intervenção humana, como a sondagem convencional de red teaming em IA, para ajudar a acelerar a identificação de riscos e auxiliar na avaliação por um especialista humano.

Em alternativa, pode também usar o portal Foundry para testar as suas aplicações de IA generativa.

  • Traga os seus próprios dados: Pode avaliar as suas aplicações de IA na fase de pré-produção usando os seus próprios dados de avaliação e com avaliadores suportados, incluindo qualidade de geração, segurança ou avaliadores personalizados, e visualizar os resultados através do portal da Foundry. Use o assistente de avaliação do Foundry ou os avaliadores suportados pelo Azure AI Evaluation SDK , incluindo avaliadores de qualidade de geração, segurança ou personalizados, e consulte os resultados através do portal Foundry.

  • Simuladores e agentes de análise de IA: Se não tiver dados de avaliação (dados de teste), os simuladores podem ajudar gerando consultas relacionadas a tópicos ou consultas adversárias. Estes simuladores testam a resposta do modelo a consultas apropriadas à situação ou semelhantes a ataques (casos excepção).

    O agente de red teaming de IA simula ataques adversários complexos contra o seu sistema de IA, utilizando uma vasta gama de ataques de segurança e proteção, utilizando o framework aberto da Microsoft para Python Risk Identification Tool, ou PyRIT.

    As varreduras automáticas usando o agente red teaming de IA melhoram a avaliação de riscos na pré-produção ao testar de forma sistemática as aplicações de IA para riscos. Esse processo envolve cenários de ataque simulados para identificar fraquezas nas respostas do modelo antes da implantação no mundo real. Ao executar verificações de agrupamento vermelho de IA, você pode detetar e mitigar possíveis problemas de segurança antes da implantação. Recomenda-se que esta ferramenta seja utilizada em processos com intervenção humana, como a sondagem convencional de red teaming em IA, para ajudar a acelerar a identificação de riscos e auxiliar na avaliação por um especialista humano.

Em alternativa, pode também usar o portal Foundry para testar as suas aplicações de IA generativa.

Depois de obter resultados satisfatórios, você pode implantar o aplicativo de IA na produção.

Monitorização pós-produção

Após a implantação, o monitoramento contínuo garante que seu aplicativo de IA mantenha a qualidade em condições reais.

Após a implementação, a monitorização contínua garante que a sua aplicação de IA mantém a qualidade em condições reais.

  • Métricas operacionais: Medição regular das principais métricas operacionais de agentes de IA.
  • Avaliação contínua: Permite a avaliação de qualidade e segurança do tráfego de produção a uma taxa amostrada.
  • Avaliação agendada: Permite a avaliação agendada de qualidade e segurança utilizando um conjunto de dados de teste para detetar deriva nos sistemas subjacentes.
  • Red teaming programada: Fornece capacidades de testes adversários agendados para sondar vulnerabilidades de segurança e de confiabilidade.
  • Alertas Azure Monitor: Ação rápida quando ocorrem resultados prejudiciais ou inadequados. Configure alertas de avaliação contínua para serem notificados quando os resultados da avaliação caírem abaixo do limite da taxa de aprovação em produção.

O monitoramento eficaz ajuda a manter a confiança do usuário e permite a rápida resolução de problemas.

A observabilidade oferece capacidades abrangentes de monitorização, essenciais para o panorama complexo e em rápida evolução da IA atual. Perfeitamente integrada com o Azure Monitor Application Insights, esta solução permite a monitorização contínua de aplicações de IA implementadas para garantir o desempenho, a segurança e a qualidade ideais em ambientes de produção.

O painel Observabilidade do Foundry fornece informações em tempo real sobre métricas críticas. Ele permite que as equipes identifiquem e resolvam rapidamente problemas de desempenho, problemas de segurança ou degradação da qualidade.

Para aplicativos baseados em agente, o Foundry oferece recursos aprimorados de avaliação contínua. Esses recursos podem fornecer uma visibilidade mais profunda das métricas de qualidade e segurança. Eles podem criar um ecossistema de monitoramento robusto que se adapta à natureza dinâmica das aplicações de IA, mantendo altos padrões de desempenho e confiabilidade.

Ao monitorar continuamente o comportamento do aplicativo de IA na produção, você pode manter experiências de usuário de alta qualidade e resolver rapidamente quaisquer problemas que surjam.

Reforçar a confiança através de uma avaliação sistemática

O GenAIOps estabelece um processo confiável para gerenciar aplicativos de IA durante todo o seu ciclo de vida. Ao implementar uma avaliação completa em cada estágio, desde a seleção do modelo até a implantação e além, as equipes podem criar soluções de IA que não sejam apenas poderosas, mas confiáveis e seguras.

Folha de dicas de avaliação

Propósito Processo Parâmetros, orientações e amostras
Para que está a avaliar? Identificar ou construir avaliadores relevantes - Amostra de notebook de qualidade e desempenho

- Qualidade de resposta dos agentes

- Segurança e proteção (caderno de exemplo de segurança e proteção)

- Personalizado (caderno de exemplos personalizado)
Que dados deve utilizar? Carregar ou gerar conjunto de dados relevante - Simulador genérico para medir Qualidade e Desempenho (Notebook de amostra de simulador genérico)

- Simulador adversarial para medição de segurança e proteção (notebook de amostra de simulador adversarial)

- Agente de red teaming de IA para realizar varreduras automatizadas para avaliar vulnerabilidades de segurança (exemplo de notebook de agente de red teaming de IA)
Como realizar avaliações num conjunto de dados? Executar avaliação - Execuções de avaliação do agente

- Execução remota na nuvem

- Execução local
Qual foi o desempenho do meu modelo/aplicativo? Analisar os resultados - Ver pontuações agregadas, ver detalhes, detalhes da pontuação, comparar execuções de avaliação
Como posso melhorar? Fazer alterações no modelo, aplicativo ou avaliadores - Se os resultados da avaliação não estiverem alinhados com o feedback humano, ajuste o seu avaliador.

- Se os resultados da avaliação estiverem alinhados com o feedback humano, mas não atingirem os limites de qualidade/segurança, aplique mitigações direcionadas. Exemplo de atenuações a serem aplicadas: Segurança de Conteúdo do Azure AI
Propósito Processo Parâmetros, orientações e amostras
Para que está a avaliar? Identificar ou construir avaliadores relevantes - Qualidade RAG

- Qualidade dos Agentes

- Segurança e proteção (caderno de exemplo de segurança e proteção)

- Personalizado (caderno de exemplos personalizado)
Que dados deve utilizar? Carregar ou gerar conjunto de dados relevante - Geração de conjuntos de dados sintéticos

- Agente de red teaming de IA para realizar varreduras automatizadas para avaliar vulnerabilidades de segurança (exemplo de notebook de agente de red teaming de IA)
Como realizar avaliações num conjunto de dados? Executar avaliação - Execuções de avaliação do agente

- Execução remota na nuvem
Qual foi o desempenho do meu modelo/aplicativo? Analisar os resultados - Ver pontuações agregadas, ver detalhes, detalhes da pontuação, comparar execuções de avaliação
Como posso melhorar? Fazer alterações no modelo, aplicativo ou avaliadores - Se os resultados da avaliação não estiverem alinhados com o feedback humano, ajuste o seu avaliador.

- Se os resultados da avaliação estiverem alinhados com o feedback humano, mas não atingirem os limites de qualidade/segurança, aplique mitigações direcionadas. Exemplo de atenuações a serem aplicadas: Segurança de Conteúdo do Azure AI

Traga a sua própria rede virtual para avaliação

Para fins de isolamento de rede, pode trazer a sua própria rede virtual para avaliação. Para saber mais, veja Como configurar um link privado.

Observação

Os dados de avaliação são enviados para o Application Insights se o Application Insights estiver ligado. O suporte para Rede Virtual, Application Insights e rastreamento não está disponível.

Importante

Para evitar falhas na avaliação e nos testes de segurança, atribua o papel de Utilizador de IA Azure à Identidade Gerida do projeto durante a configuração inicial do projeto.

Suporte a região de rede virtual

Utilize a sua própria rede virtual para avaliação está disponível em todas as regiões, exceto na Índia Central, Ásia Oriental, Norte da Europa e Qatar Central.

Suporte de região

Atualmente, alguns avaliadores assistidos por IA estão disponíveis apenas nas seguintes regiões:

Região Ódio e injustiça, Sexual, Violento, Automutilação, Ataque indireto, Vulnerabilidades de código, Atributos infundados Enraizamento Pro Material protegido
E.U.A. Leste 2 Suportado Suportado Suportado
Suécia Central Suportado Suportado N/A
E.U.A Centro-Norte Suportado N/A N/A
Centro de França Suportado N/A N/A
Oeste da Suíça Suportado N/A N/A

Suporte à região de avaliação do recreio de agentes

Região Situação
E.U.A. Leste Suportado
E.U.A. Leste 2 Suportado
E.U.A. Oeste Suportado
E.U.A. Oeste 2 Suportado
E.U.A. Oeste 3 Suportado
Centro de França Suportado
Leste da Noruega Suportado
Suécia Central Suportado

Preços

Os recursos de observabilidade, como Avaliações de Risco e Segurança e Avaliações Contínuas, são cobrados com base no consumo, conforme listado em nossa página de preços do Azure.