Evaluar manualmente el rendimiento de un modelo
Durante las primeras fases del desarrollo de tu aplicación de inteligencia artificial generativa, quieres experimentar e iterar rápidamente. Para evaluar fácilmente si el modelo de lenguaje y la aplicación seleccionados, creados con el flujo de solicitud, cumplen sus requisitos, puede evaluar manualmente los modelos y flujos en el portal de Microsoft Foundry.
Incluso cuando el modelo y la aplicación ya están en producción, las evaluaciones manuales son una parte fundamental de la evaluación del rendimiento. Dado que las evaluaciones manuales son realizadas por humanos, pueden proporcionar información que las métricas automatizadas podrían pasar por alto.
Vamos a explorar cómo puede evaluar manualmente los modelos y la aplicación seleccionados en el portal de Microsoft Foundry.
Prepara tus indicaciones de prueba
Para comenzar el proceso de evaluación manual, es esencial preparar un conjunto diverso de avisos de prueba que reflejen el intervalo de consultas y tareas que se espera que la aplicación controle. Estas indicaciones deben abarcar varios escenarios, incluidas las preguntas comunes del usuario, los casos perimetrales y los posibles puntos de error. Al hacerlo, puede evaluar exhaustivamente el rendimiento de la aplicación e identificar áreas para mejorar.
Probar el modelo seleccionado en el área de juegos de chat
Al desarrollar una aplicación de chat, se usa un modelo de lenguaje para generar una respuesta. Para crear una aplicación de chat, desarrolle un flujo de aviso que encapsula la lógica de la aplicación de chat, que puede usar varios modelos de lenguaje para generar en última instancia una respuesta a una pregunta del usuario.
Antes de probar la respuesta de su aplicación, puede probar la respuesta del modelo de lenguaje seleccionado para comprobar que el modelo individual funciona según lo previsto. Puede probar un modelo que implementó en el portal de Microsoft Foundry interactuando con él en el área de juegos de chat.
El área de juegos de chat es ideal para el desarrollo temprano. Puede escribir un mensaje, ver cómo responde el modelo y ajustar el mensaje del sistema o la solicitud para realizar mejoras. Después de aplicar los cambios, puede volver a probar un aviso para evaluar si el rendimiento del modelo realmente ha mejorado.
Evaluación de varias solicitudes con evaluaciones manuales
El área de juegos de chat es una manera fácil de empezar. Cuando quiera evaluar manualmente varias solicitudes más rápidamente, puede usar la característica evaluaciones manuales. Esta característica permite cargar un conjunto de datos con varias preguntas y, opcionalmente, agregar una respuesta esperada para evaluar el rendimiento del modelo en un conjunto de datos de prueba mayor.
Puede evaluar las respuestas del modelo con la función de pulgar arriba o abajo. En función de la clasificación general, puede intentar mejorar el modelo cambiando el mensaje de entrada, el mensaje del sistema, el modelo o los parámetros del modelo.
Al usar evaluaciones manuales, puede evaluar más rápidamente el rendimiento del modelo en función de un conjunto de datos de prueba diverso y mejorar el modelo en función de los resultados de la prueba.
Después de evaluar manualmente un modelo individual, puede integrar el modelo en una aplicación de chat con flujo de aviso. Cualquier flujo que cree con el flujo de avisos también se puede evaluar manual o automáticamente. A continuación, vamos a explorar la evaluación de los flujos.