Partilhar via


Feedback humano

O feedback humano é essencial para a construção de aplicativos GenAI de alta qualidade que atendam às expectativas do usuário. O MLflow fornece ferramentas e um modelo de dados para coletar, gerenciar e utilizar feedback de desenvolvedores, usuários finais e especialistas em domínio. O feedback humano complementa a avaliação automatizada. Pode ajudá-lo a criar conjuntos de dados para juízes e avaliadores automáticos de LLM, e também a mantê-los alinhados com o julgamento de especialistas humanos.

Visão geral do modelo de dados

O MLflow armazena feedback humano como Avaliações, anexado a Rastreamentos MLflow individuais. Isso vincula o feedback diretamente a uma consulta de usuário específica e às saídas e à lógica do seu aplicativo GenAI.

Existem 2 tipos de avaliação:

  1. Feedback: avalia as saídas reais ou as etapas intermediárias do seu aplicativo. Por exemplo, responde a perguntas como: "A resposta do agente foi boa?". O feedback avalia o que o aplicativo produziu, como classificações ou comentários. O feedback avalia o que foi gerado pelo aplicativo e fornece insights qualitativos.
  2. Expectativa: define o resultado desejado ou correto (verdade básica) que seu aplicativo deveria ter produzido. Por exemplo, isso pode ser "A resposta ideal" para a consulta de um usuário. Para um dado input, a expectativa é sempre a mesma. As expectativas definem o que o aplicativo deve gerar e são úteis para criar conjuntos de dados de avaliação,

As avaliações podem ser anexadas a todo o Traço ou a uma secção específica dentro do Traço.

Para mais detalhes sobre o traço, veja Conceitos de traço.

Como recolher feedback

O MLflow ajuda você a coletar feedback de três fontes principais. Cada fonte é adaptada para um caso de uso diferente no ciclo de vida do seu aplicativo GenAI. Embora o feedback venha de diferentes personas, o modelo de dados subjacente é o mesmo para todas as personas.

Comentários dos desenvolvedores

Durante o desenvolvimento, você pode anotar diretamente os rastreamentos. Isso é útil para acompanhar notas de qualidade à medida que você cria e marca exemplos específicos para futuros testes de referência ou regressão.

Para saber como anotar comentários durante o desenvolvimento, consulte Rótulo durante o desenvolvimento.

Comentários de especialistas no domínio

Envolva especialistas no assunto para fornecer feedback estruturado sobre os resultados do seu aplicativo e definir expectativas para respostas corretas. Suas avaliações detalhadas ajudam a definir como são as respostas de alta qualidade para seu caso de uso específico e são inestimáveis para alinhar juízes de LLM com requisitos de negócios diferenciados.

Revise a imagem principal de visualização do aplicativo.

O MLflow fornece duas abordagens para coletar comentários de especialistas do domínio usando o aplicativo Review:

Teste interativo com a interface do usuário de bate-papo: os especialistas interagem com seu aplicativo implantado em tempo real por meio de uma interface de bate-papo, fornecendo feedback imediato sobre as respostas à medida que testam fluxos de conversação. Essa abordagem é ideal para "verificações de vibração" e validação qualitativa antes da implantação da produção. Para saber mais, consulte Testar uma versão da aplicação com a interface de chat.

Rotular traços existentes: Os especialistas analisam e rotulam sistematicamente os traços que já tenham sido capturados do seu aplicativo. Esta abordagem é ideal para sessões de avaliação estruturadas onde os especialistas avaliam exemplos específicos e definem as expectativas de verdade. Para saber mais, consulte Etiquetar trilhas existentes.

Comentários dos utilizadores finais

Na produção, capture o feedback dos usuários que interagem com seu aplicativo ao vivo. Isso fornece informações cruciais sobre o desempenho no mundo real, ajudando você a identificar consultas problemáticas que precisam ser corrigidas e destacar interações bem-sucedidas para preservar durante atualizações futuras. O MLflow fornece ferramentas para capturar, armazenar e analisar comentários diretamente dos usuários de seus aplicativos implantados.

Para saber como coletar comentários dos usuários finais, consulte o guia coletar comentários dos usuários finais na seção de rastreamento.

Próximos passos