Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los comentarios humanos son esenciales para crear aplicaciones genAI de alta calidad que cumplan las expectativas del usuario. MLflow proporciona herramientas y un modelo de datos para recopilar, administrar y usar comentarios de desarrolladores, usuarios finales y expertos en dominios. Los comentarios humanos complementan la evaluación automatizada. Puede ayudarle a crear conjuntos de datos para jueces y puntuadores de LLM automatizados, y también ayudarles a mantenerse alineados con el criterio experto humano.
Información general del modelo de datos
MLflow almacena la retroalimentación humana como Evaluaciones, adjuntadas a trazas individuales de MLflow. Esto vincula los comentarios directamente a una consulta de usuario específica y a las salidas y la lógica de la aplicación GenAI.
Hay dos tipos de evaluación:
- Comentarios: evalúa las salidas reales o los pasos intermedios de la aplicación. Por ejemplo, responde a preguntas como "¿La respuesta del agente es correcta?". Las opiniones evalúan lo que generó la aplicación, como clasificaciones o comentarios. Los comentarios evalúan lo que generó la aplicación y proporcionan información cualitativa.
- Expectativa: define el resultado deseado o correcto (verdad básica) que la aplicación debe haber generado. Por ejemplo, esto podría ser "La respuesta ideal" a la consulta de un usuario. Para una entrada determinada, la expectativa siempre es la misma. Las expectativas definen qué debe generar la aplicación y son útiles para crear conjuntos de datos de evaluación,
Las evaluaciones se pueden adjuntar a toda la traza o a un intervalo específico dentro de la traza.
Para obtener más información sobre el seguimiento, consulte Conceptos de seguimiento.
Recopilación de comentarios
MLflow le ayuda a recopilar comentarios de tres orígenes principales. Cada origen se adapta a un caso de uso diferente en el ciclo de vida de la aplicación GenAI. Aunque los comentarios proceden de diferentes roles, el modelo de datos subyacente es el mismo para todos los roles.
Comentarios de desarrolladores
Durante el desarrollo, puede anotar directamente los seguimientos. Esto resulta útil para realizar un seguimiento de las notas de calidad a medida que se compilan y se marcan ejemplos específicos para futuras pruebas de referencia o regresión.
Para obtener información sobre cómo anotar comentarios durante el desarrollo, consulte Etiqueta durante el desarrollo.
Comentarios de expertos en dominio
Interactúe con expertos en la materia para proporcionar comentarios estructurados sobre las salidas de la aplicación y definir las expectativas de las respuestas correctas. Sus evaluaciones detalladas ayudan a definir el aspecto de las respuestas de alta calidad para su caso de uso específico y son invaluables para alinear a los jueces LLM con las sutilezas de los requisitos empresariales.
MLflow proporciona dos enfoques para recopilar comentarios de expertos de dominio mediante la aplicación de revisión:
Pruebas interactivas con la interfaz de usuario de chat: los expertos interactúan con la aplicación implementada en tiempo real a través de una interfaz de chat, lo que proporciona comentarios inmediatos sobre las respuestas a medida que prueban los flujos conversacionales. Este enfoque es ideal para "evaluaciones de percepción" y validación cualitativa antes del despliegue en producción. Para más información, consulte Probar una versión de aplicación con la interfaz de usuario de chat.
Etiquetado de trazas existentes: los expertos revisan y etiquetan sistemáticamente las trazas que ya se han capturado de tu aplicación. Este enfoque es ideal para sesiones de evaluación estructuradas en las que los expertos evalúan ejemplos específicos y definen expectativas de verdad sobre el terreno. Para obtener más información, consulte Etiquetar los seguimientos existentes.
Comentarios del usuario final
En producción, captura los comentarios de los usuarios que interactúan con la aplicación en vivo. Esto proporciona información fundamental sobre el rendimiento real, lo que le ayuda a identificar consultas problemáticas que necesitan corregir y resaltar interacciones correctas para conservarlas durante futuras actualizaciones. MLflow proporciona herramientas para capturar, almacenar y analizar comentarios directamente de los usuarios de las aplicaciones implementadas.
Para obtener información sobre cómo recopilar comentarios de los usuarios finales, consulte la guía de recopilación de comentarios del usuario final en la sección de seguimiento.
Pasos siguientes
- Introducción a la recopilación de comentarios humanos : recorra este tutorial holístico que muestra formas comunes de recopilar comentarios humanos.
- Etiqueta durante el desarrollo - Comience a anotar trazas para realizar un seguimiento de la calidad durante el desarrollo.
- Probar una versión de aplicación con la interfaz de usuario de chat : pruebe la aplicación de forma interactiva mediante una interfaz de chat en directo.
- Etiquetar rastros existentes - configurar procesos de revisión sistemática de expertos.