Compartir a través de


Crear conjuntos de pruebas para evaluaciones

[Este artículo es documentación preliminar y está sujeto a modificaciones].

En Copilot Studio puedes crear un conjunto de casos de prueba para evaluar el rendimiento de tus agentes. Los casos de prueba permiten simular escenarios reales para el agente, por lo que puede medir la precisión, la relevancia y la calidad de las respuestas a las preguntas a las que se hace el agente, en función de la información a la que puede acceder el agente. Utilizando los resultados del conjunto de pruebas, puedes optimizar el comportamiento de tu agente y validar que cumple con tus requisitos de negocio y calidad.

Importante

Este artículo contiene la documentación de la versión preliminar de Microsoft Copilot Studio y está sujeto a modificaciones.

Las características en versión preliminar no están pensadas para su uso en producción y pueden tener funcionalidad restringida. Estas características están disponibles antes del lanzamiento oficial para que pueda tener acceso anticipado y proporcionar comentarios.

Si está creando un agente listo para producción, consulte Información general sobre Microsoft Copilot Studio.

Las evaluaciones funcionan enviando mensajes a tu agente, registrando las respuestas y comparando esas respuestas con las esperadas o con un estándar de calidad. Más mensajes, usados como casos de prueba, pueden darte una mejor idea de cómo tu agente maneja distintos casos de uso.

Puedes crear casos de prueba manualmente, importarlos usando una hoja de cálculo o usar IA para generar mensajes basados en el diseño y conocimientos de tu agente. Luego puedes elegir cómo quieres medir la calidad de las respuestas de tu agente para cada caso de prueba dentro de un conjunto de pruebas. Para más información sobre cómo crear casos de prueba, véase Crear un conjunto de pruebas.

Importante

Los resultados de las pruebas están disponibles en Copilot Studio durante 89 días. Para guardar los resultados de tus pruebas durante un periodo más largo, exporta los resultados a un archivo CSV.

Creación de un nuevo conjunto de pruebas

  1. Ve a la página de Evaluación de tu agente.

  2. Selecciona Nuevo conjunto de pruebas.

    Captura de pantalla que muestra el botón Crear nueva prueba en la página de Evaluación.

  3. En la página Nuevo conjunto de pruebas , elija el método que desea usar para crear el conjunto de pruebas:

    • Pregunta rápida configurada para que Copilot Studio cree casos de prueba automáticamente basándose en la descripción, instrucciones y capacidades de tu agente. Esta opción genera 10 preguntas para realizar evaluaciones pequeñas y rápidas o para empezar a construir un conjunto de pruebas más grande.
    • Pregunta completa configurada para que Copilot Studio genere casos de prueba usando las fuentes de conocimiento o temas de tu agente.
    • Utiliza tu conversación de chat de prueba para rellenar automáticamente el conjunto de preguntas que has dado en tu chat. Este método utiliza preguntas del último chat de prueba. También puedes iniciar una evaluación desde el chat de prueba usando el botón de evaluar . Captura de pantalla que muestra el botón Crear nueva prueba en el chat de prueba.
    • Importa casos de prueba de un archivo arrastrando tu archivo al área designada, seleccionando Explorar para subir un archivo, o seleccionando alguna de las otras opciones de subida.
    • O escribe tú mismo algunas preguntas para crear manualmente un conjunto de pruebas. Sigue los pasos para editar un conjunto de pruebas y añadir y editar casos de prueba.
  4. Edita los detalles de los casos de prueba. Todos los casos de prueba que usan métodos excepto la calidad general requieren respuestas esperadas. Para más información sobre la edición, véase Modificar un conjunto de pruebas.

  5. En Nombre, escriba un nombre para el conjunto de pruebas.

  6. Selecciona perfil de usuario, luego selecciona o añade la cuenta que quieras usar para este conjunto de pruebas, o continúa sin autenticación. La evaluación utiliza esta cuenta para conectarse con fuentes de conocimiento y herramientas durante las pruebas. Para información sobre cómo añadir y gestionar perfiles de usuario, consulte Gestionar perfiles y conexiones de usuario.

Nota:

Las pruebas automatizadas utilizan la autenticación de la cuenta de prueba seleccionada. Si tu agente tiene fuentes de conocimiento o conexiones que requieren autenticación específica, selecciona la cuenta adecuada para tus pruebas.

  1. Selecciona Guardar para actualizar el conjunto de pruebas sin ejecutar los casos de prueba o Evaluar para ejecutar el conjunto de pruebas inmediatamente.

Limitación de generación de casos de prueba

Cuando generas un grupo de casos de prueba, la generación puede fallar porque una o más preguntas violan la configuración de moderación de contenido de tu agente. Entre los motivos se incluyen:

  • Las instrucciones o temas del agente llevan al modelo a generar contenido que se marca
  • La fuente de conocimiento conectada incluye contenido sensible o restringido
  • La configuración de moderación de contenido del agente es demasiado estricta

Puede que necesites probar diferentes acciones para resolver el problema, como ajustar fuentes de conocimiento, actualizar instrucciones o modificar la configuración de moderación.

Genera un conjunto de pruebas a partir de conocimientos o temas

Puedes evaluar a tu agente generando preguntas usando la información y las fuentes de conversación que ya posee. Este método de prueba es bueno para comprobar cómo tu agente utiliza el conocimiento y los temas que ya posee, pero no es bueno para detectar lagunas de información.

Puedes generar casos de prueba usando estas fuentes de conocimiento:

  • Mensaje de texto
  • Microsoft Word
  • Microsoft Excel

Puedes usar archivos de hasta 293 KB para generar preguntas de examen.

Para generar un conjunto de pruebas:

  1. En la página de nuevo conjunto de pruebas , elige Conjunto completo de preguntas.

  2. Selecciona Conocimientos o Temas.

    • El conocimiento funciona mejor para agentes que usan orquestación generativa. Este método genera preguntas utilizando una selección de fuentes de conocimiento de tu agente.
    • Topics funciona mejor para agentes que usan orquestación clásica. Este método genera preguntas utilizando los temas de tu agente.
  3. Para Conocimiento, selecciona las fuentes de conocimiento que quieres incluir en la generación de preguntas.

Captura de pantalla que muestra la selección de fuentes de conocimiento para incluir en la generación del caso de prueba.

  1. Para Conocimientos y Temas, selecciona y arrastra el control deslizante para elegir el número de preguntas a generar.

Captura de pantalla mostrando el deslizador para seleccionar cuántas preguntas generar.

  1. Selecciona Generar.

  2. Edita los detalles de los casos de prueba. Todos los casos de prueba que usan métodos excepto la calidad general requieren respuestas esperadas. Para más información sobre la edición, véase Modificar un conjunto de pruebas.

  3. Selecciona Gestionar perfil para seleccionar o conectar la cuenta que quieres usar en este conjunto de pruebas. También puedes continuar sin añadir una cuenta para autenticación.

Nota:

Las pruebas automatizadas utilizan la autenticación de la cuenta de prueba seleccionada. Si tu agente tiene fuentes de conocimiento o conexiones que requieren autenticación específica, selecciona la cuenta adecuada para tus pruebas.

Cuando Copilot Studio genera casos de prueba, utiliza las credenciales de autenticación de una cuenta conectada para acceder a las fuentes de conocimiento y herramientas de tu agente. Los casos de prueba o resultados generados pueden incluir información sensible a la que la cuenta conectada tiene acceso, y esta información es visible para todos los creadores que pueden acceder al conjunto de pruebas.

  1. Selecciona Guardar para actualizar el conjunto de pruebas sin ejecutar los casos de prueba o Evaluar para ejecutar el conjunto de pruebas inmediatamente.

Crear un archivo de conjunto de pruebas para importar

En lugar de compilar los casos de prueba directamente en Copilot Studio, puede crear un archivo de hoja de cálculo con todos los casos de prueba e importarlos para crear el conjunto de pruebas. Puede redactar cada pregunta de prueba, determinar el método de prueba que desea usar e indicar las respuestas esperadas para cada pregunta. Cuando termine de crear el archivo, guárdelo como un archivo .csv o .txt e impórtelo en Copilot Studio.

Importante

  • El archivo puede contener hasta 100 preguntas.
  • Cada pregunta puede tener hasta 1000 caracteres, incluidos los espacios.
  • El archivo debe estar en formato de texto o valores separados por comas (CSV).

Para crear el archivo de importación:

  1. Abra una aplicación de hoja de cálculo (por ejemplo, Microsoft Excel).

  2. Agregue los encabezados siguientes, en este orden, en la primera fila:

    • Pregunta
    • Respuesta esperada
    • Método de prueba
  3. Escriba las preguntas de prueba en la columna Pregunta . Cada pregunta puede tener 1000 caracteres o menos, incluidos los espacios.

  4. Escriba uno de los métodos de prueba siguientes para cada pregunta en la columna Método de prueba:

    • Calidad general
    • Comparación de significado
    • Similitud
    • Coincidencia exacta
    • Coincidencia parcial
  5. Escriba las respuestas esperadas para cada pregunta en la columna Respuesta esperada . Las respuestas esperadas son opcionales para importar un conjunto de pruebas. Sin embargo, necesita respuestas esperadas para ejecutar coincidencias, similitudes y comparar casos de prueba de significado.

  6. Guarde el archivo como .csv o .txt.

  7. Importa el archivo siguiendo los pasos de Crear un nuevo conjunto de pruebas.