Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O feedback humano é essencial para a construção de aplicativos GenAI de alta qualidade que atendam às expectativas do usuário. O MLflow fornece ferramentas e um modelo de dados para coletar, gerenciar e utilizar feedback de desenvolvedores, usuários finais e especialistas em domínio. O feedback humano complementa a avaliação automatizada. Pode ajudá-lo a criar conjuntos de dados para juízes e avaliadores automáticos de LLM, e também a mantê-los alinhados com o julgamento de especialistas humanos.
Visão geral do modelo de dados
O MLflow armazena feedback humano como Avaliações, anexado a Rastreamentos MLflow individuais. Isso vincula o feedback diretamente a uma consulta de usuário específica e às saídas e à lógica do seu aplicativo GenAI.
Existem 2 tipos de avaliação:
- Feedback: avalia as saídas reais ou as etapas intermediárias do seu aplicativo. Por exemplo, responde a perguntas como: "A resposta do agente foi boa?". O feedback avalia o que o aplicativo produziu, como classificações ou comentários. O feedback avalia o que foi gerado pelo aplicativo e fornece insights qualitativos.
- Expectativa: define o resultado desejado ou correto (verdade básica) que seu aplicativo deveria ter produzido. Por exemplo, isso pode ser "A resposta ideal" para a consulta de um usuário. Para um dado input, a expectativa é sempre a mesma. As expectativas definem o que o aplicativo deve gerar e são úteis para criar conjuntos de dados de avaliação,
As avaliações podem ser anexadas a todo o Traço ou a uma secção específica dentro do Traço.
Para mais detalhes sobre o traço, veja Conceitos de traço.
Como recolher feedback
O MLflow ajuda você a coletar feedback de três fontes principais. Cada fonte é adaptada para um caso de uso diferente no ciclo de vida do seu aplicativo GenAI. Embora o feedback venha de diferentes personas, o modelo de dados subjacente é o mesmo para todas as personas.
Comentários dos desenvolvedores
Durante o desenvolvimento, você pode anotar diretamente os rastreamentos. Isso é útil para acompanhar notas de qualidade à medida que você cria e marca exemplos específicos para futuros testes de referência ou regressão.
Para saber como anotar comentários durante o desenvolvimento, consulte Rótulo durante o desenvolvimento.
Comentários de especialistas no domínio
Envolva especialistas no assunto para fornecer feedback estruturado sobre os resultados do seu aplicativo e definir expectativas para respostas corretas. Suas avaliações detalhadas ajudam a definir como são as respostas de alta qualidade para seu caso de uso específico e são inestimáveis para alinhar juízes de LLM com requisitos de negócios diferenciados.
O MLflow fornece duas abordagens para coletar comentários de especialistas do domínio usando o aplicativo Review:
Teste interativo com a interface do usuário de bate-papo: os especialistas interagem com seu aplicativo implantado em tempo real por meio de uma interface de bate-papo, fornecendo feedback imediato sobre as respostas à medida que testam fluxos de conversação. Essa abordagem é ideal para "verificações de vibração" e validação qualitativa antes da implantação da produção. Para saber mais, consulte Testar uma versão da aplicação com a interface de chat.
Rotular traços existentes: Os especialistas analisam e rotulam sistematicamente os traços que já tenham sido capturados do seu aplicativo. Esta abordagem é ideal para sessões de avaliação estruturadas onde os especialistas avaliam exemplos específicos e definem as expectativas de verdade. Para saber mais, consulte Etiquetar trilhas existentes.
Comentários dos utilizadores finais
Na produção, capture o feedback dos usuários que interagem com seu aplicativo ao vivo. Isso fornece informações cruciais sobre o desempenho no mundo real, ajudando você a identificar consultas problemáticas que precisam ser corrigidas e destacar interações bem-sucedidas para preservar durante atualizações futuras. O MLflow fornece ferramentas para capturar, armazenar e analisar comentários diretamente dos usuários de seus aplicativos implantados.
Para saber como coletar comentários dos usuários finais, consulte o guia coletar comentários dos usuários finais na seção de rastreamento.
Próximos passos
- Comece a coletar feedback humano - Percorra este tutorial holístico demonstrando maneiras comuns de coletar feedback humano.
- Rótulo durante o desenvolvimento - Comece a anotar traços para acompanhar a qualidade durante o desenvolvimento.
- Testar uma versão da aplicação com a interface de chat - Teste a sua aplicação de forma interativa usando uma interface de chat ao vivo.
- Marcar rastros existentes - Configure processos sistemáticos de revisão por especialistas.