Compartilhar via


Comentários humanos

Os comentários humanos são essenciais para criar aplicativos GenAI de alta qualidade que atendam às expectativas do usuário. O MLflow fornece ferramentas e um modelo de dados para coletar, gerenciar e utilizar comentários de desenvolvedores, usuários finais e especialistas em domínio. Os comentários humanos complementam a avaliação automatizada. Ele pode ajudá-lo a criar conjuntos de dados para juízes e pontuadores de LLM automatizados e também ajudá-los a mantê-los alinhados com o julgamento de especialistas humanos.

Visão geral do modelo de dados

O MLflow armazena comentários humanos como Avaliações, anexados a rastreamentos individuais do MLflow. Isso vincula comentários diretamente a uma consulta de usuário específica e às saídas e à lógica do aplicativo GenAI.

Há dois tipos de avaliação:

  1. Comentários: Avalia as saídas reais do aplicativo ou as etapas intermediárias. Por exemplo, ele responde a perguntas como: "A resposta do agente foi boa?". O feedback avalia o que o aplicativo produziu, como classificações ou comentários. Os comentários avaliam o que foi gerado pelo aplicativo e fornecem insights qualitativos.
  2. Expectativa: define o resultado desejado ou correto (verdade básica) que seu aplicativo deve ter produzido. Por exemplo, isso pode ser "A resposta ideal" para a consulta de um usuário. Para uma determinada entrada, a Expectativa é sempre a mesma. As expectativas definem o que o aplicativo deve gerar e são úteis para criar conjuntos de dados de avaliação,

As avaliações podem ser anexadas a todo o Rastreamento ou a um intervalo específico dentro do Rastreamento.

Para obter mais detalhes sobre o rastreamento, consulte conceitos de rastreamento.

Como coletar comentários

O MLflow ajuda você a coletar comentários de três fontes principais. Cada fonte é adaptada para um caso de uso diferente no ciclo de vida do aplicativo GenAI. Embora os comentários venham de personas diferentes, o modelo de dados subjacente é o mesmo para todas as personas.

Comentários do desenvolvedor

Durante o desenvolvimento, você pode anotar rastreamentos diretamente. Isso é útil para acompanhar as notas de qualidade à medida que você cria e marca exemplos específicos para testes futuros de referência ou regressão.

Para saber como anotar comentários durante o desenvolvimento, consulte Rótulo durante o desenvolvimento.

Comentários de especialistas em domínio

Envolva especialistas no assunto para fornecer comentários estruturados sobre as saídas do seu aplicativo e definir expectativas para respostas corretas. Suas avaliações detalhadas ajudam a definir como são as respostas de alta qualidade para seu caso de uso específico e são inestimáveis para alinhar juízes LLM com requisitos de negócios com nuances.

Imagem de destaque da visualização do aplicativo de análise.

O MLflow fornece duas abordagens para coletar comentários de especialistas em domínio usando o Aplicativo de Revisão:

Teste interativo com a interface de chat: especialistas interagem com seu aplicativo implantado em tempo real por meio de uma interface de chat, fornecendo comentários imediatos sobre as respostas enquanto testam fluxos de conversação. Essa abordagem é ideal para "verificações de vibração" e validação qualitativa antes da implantação de produção. Para saber mais, leia Testar uma versão do aplicativo com a interface do usuário do Chat.

Rotulando rastreamentos existentes: especialistas revisam sistematicamente e rotulam rastreamentos que já foram capturados de seu aplicativo. Essa abordagem é ideal para sessões de avaliação estruturadas em que especialistas avaliam exemplos específicos e definem expectativas básicas de verdade. Para saber mais, veja Etiquetar rastreamentos existentes.

Comentários do usuário final

Na produção, capture comentários de usuários interagindo com seu aplicativo dinâmico. Isso fornece insights cruciais sobre o desempenho do mundo real, ajudando você a identificar consultas problemáticas que precisam ser corrigidas e realçar interações bem-sucedidas a serem preservadas durante atualizações futuras. O MLflow fornece ferramentas para capturar, armazenar e analisar comentários diretamente dos usuários de seus aplicativos implantados.

Para saber como coletar comentários do usuário final, consulte o guia coletar comentários do usuário final na seção de rastreamento.

Próximas etapas