Evaluaciones automatizadas

Completado

Las evaluaciones automatizadas en el portal de Microsoft Foundry le permiten evaluar el rendimiento de calidad y seguridad del contenido de los modelos, conjuntos de datos o flujos de solicitud.

Datos de evaluación

Para evaluar un modelo, necesita un conjunto de datos de solicitudes y respuestas (y, opcionalmente, las respuestas esperadas como "verdad básica"). Puede compilar este conjunto de datos manualmente o usar la salida de una aplicación existente; pero una manera útil de empezar es usar un modelo de IA para generar un conjunto de mensajes y respuestas relacionados con un tema específico. Después, puede editar las solicitudes y respuestas generadas para reflejar la salida deseada y usarlas como verdad básica para evaluar las respuestas de otro modelo.

Captura de pantalla de los datos de evaluación generados por IA.

Métricas de evaluación

La evaluación automatizada le permite elegir qué evaluadores desea evaluar las respuestas del modelo y qué métricas deben calcular esos evaluadores. Hay evaluadores que le ayudan a medir:

  • Calidad de IA: la calidad de las respuestas del modelo se mide mediante el uso de modelos de IA para evaluarlas en métricas como la coherencia y la relevancia, y mediante el uso de métricas estándar de NLP, como la puntuación F1, BLEU, METEOR y ROUGE, basándose en la verdad de referencia (en forma de texto esperado de respuesta)
  • Riesgo y seguridad: evaluadores que evalúan las respuestas para problemas de seguridad de contenido, como la violencia, el odio, el contenido sexual y el contenido relacionado con el autolesión.