Evaluaciones automatizadas
Las evaluaciones automatizadas en el portal de Microsoft Foundry le permiten evaluar el rendimiento de calidad y seguridad del contenido de los modelos, conjuntos de datos o flujos de solicitud.
Datos de evaluación
Para evaluar un modelo, necesita un conjunto de datos de solicitudes y respuestas (y, opcionalmente, las respuestas esperadas como "verdad básica"). Puede compilar este conjunto de datos manualmente o usar la salida de una aplicación existente; pero una manera útil de empezar es usar un modelo de IA para generar un conjunto de mensajes y respuestas relacionados con un tema específico. Después, puede editar las solicitudes y respuestas generadas para reflejar la salida deseada y usarlas como verdad básica para evaluar las respuestas de otro modelo.
Métricas de evaluación
La evaluación automatizada le permite elegir qué evaluadores desea evaluar las respuestas del modelo y qué métricas deben calcular esos evaluadores. Hay evaluadores que le ayudan a medir:
- Calidad de IA: la calidad de las respuestas del modelo se mide mediante el uso de modelos de IA para evaluarlas en métricas como la coherencia y la relevancia, y mediante el uso de métricas estándar de NLP, como la puntuación F1, BLEU, METEOR y ROUGE, basándose en la verdad de referencia (en forma de texto esperado de respuesta)
- Riesgo y seguridad: evaluadores que evalúan las respuestas para problemas de seguridad de contenido, como la violencia, el odio, el contenido sexual y el contenido relacionado con el autolesión.