Observabilidad en IA generativa

Nota:

Este documento hace referencia al portal de Microsoft Foundry (clásico).

🔄 Cambie a la documentación de Microsoft Foundry (nueva) si usa el nuevo portal.

Nota:

Este documento hace referencia al portal deMicrosoft Foundry (nuevo).

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

En el mundo actual controlado por ia, Generative AI Operations (GenAIOps) está revolucionando la forma en que las organizaciones crean e implementan sistemas inteligentes. A medida que las empresas usan cada vez más agentes y aplicaciones de inteligencia artificial para transformar la toma de decisiones, mejorar las experiencias de los clientes y la innovación de combustible, un elemento es fundamental: marcos de evaluación sólidos. La evaluación no es solo un punto de control. Es la base de calidad y confianza en las aplicaciones de inteligencia artificial. Sin rigurosa evaluación y supervisión, los sistemas de inteligencia artificial pueden generar contenido que es:

Fabricado o sin fundamento en la realidad
Irrelevante o incoherente
Perjudicial para perpetuar los riesgos de contenido y los estereotipos
Peligroso en la propagación de información errónea
Vulnerable a vulnerabilidades de seguridad

Aquí es donde la observabilidad es esencial. Estas funcionalidades miden tanto la frecuencia como la gravedad de los riesgos en las salidas de IA, lo que permite a los equipos abordar sistemáticamente los problemas de calidad, seguridad y seguridad a lo largo de todo el recorrido de desarrollo de inteligencia artificial, desde la selección del modelo adecuado para supervisar el rendimiento de producción, la calidad y la seguridad.

¿Qué es la observabilidad?

La observabilidad de la inteligencia artificial hace referencia a la capacidad de supervisar, comprender y solucionar problemas de los sistemas de inteligencia artificial a lo largo de su ciclo de vida. Implica recopilar y analizar señales como métricas de evaluación, registros, seguimientos y salidas de modelo y agente para obtener visibilidad del rendimiento, la calidad, la seguridad y el estado operativo.

¿Qué son los evaluadores?

Los evaluadores son herramientas especializadas que miden la calidad, la seguridad y la confiabilidad de las respuestas de inteligencia artificial. Al implementar evaluaciones sistemáticas a lo largo del ciclo de vida de desarrollo de inteligencia artificial, los equipos pueden identificar y solucionar posibles problemas antes de que afecten a los usuarios. Los siguientes evaluadores admitidos proporcionan funcionalidades de evaluación completas en diferentes tipos y preocupaciones de aplicaciones de IA:

Uso general

Evaluador	Propósito	Entradas
Coherencia	Mide la coherencia lógica y el flujo de respuestas.	Consulta, respuesta
Fluidez	Mide la calidad y la legibilidad del lenguaje natural.	Respuesta
Aseguramiento de Calidad	Mide exhaustivamente varios aspectos de calidad en la respuesta a preguntas.	Consulta, contexto, respuesta, verdad fundamental

Para obtener más información, consulte Evaluadores de uso general.

Similitud de texto

Evaluador	Propósito	Entradas
Similitud	Medición de similitud textual asistida por IA.	Consulta, contexto, verdad fundamental
Puntuación F1	Media armónica de precisión y recuperación en token se superpone entre la respuesta y la verdad fundamental.	Respuesta, verdad fundamental
BLEU	La puntuación de la evaluación bilingüe Understudy para las medidas de calidad de traducción se superpone en n-gramas entre la respuesta y la verdad fundamental.	Respuesta, verdad fundamental
GLEU	La variante de Google-BLEU para las medidas de evaluación de nivel de frase se superpone en n-gramas entre la respuesta y la verdad del suelo.	Respuesta, verdad fundamental
ROUGE	La Understudy orientada a la recuperación para las medidas de evaluación de Gisting se superpone en n-gramas entre la respuesta y la verdad fundamental.	Respuesta, verdad fundamental
METEORO	La métrica para la evaluación de la traducción con medidas de ordenación explícita se superpone en n-gramas entre la respuesta y la verdad fundamental.	Respuesta, verdad fundamental

Para obtener más información, consulte Evaluadores de similitud de texto

RAG (generación aumentada de recuperación)

Evaluador	Propósito	Entradas
Recuperación	Mide la eficacia en que el sistema recupera información relevante.	Consulta, contexto
Recuperación de documentos (versión preliminar)	Mide la precisión en los resultados de recuperación dada la verdad básica.	Verdad fundamental, documentos recuperados
Base	Mide la coherencia de la respuesta con respecto al contexto recuperado.	Consulta (opcional), contexto, respuesta
Groundedness Pro (versión preliminar)	Mide si la respuesta es coherente con respecto al contexto recuperado.	Consulta, contexto, respuesta
Pertinencia	Mide la importancia de la respuesta con respecto a la consulta.	Consulta, respuesta
Integridad de la respuesta (versión preliminar)	Mide en qué medida se completa la respuesta (no falta información crítica) con respecto a la verdad básica.	Respuesta, verdad fundamental

Para más información, consulte Evaluadores de generación aumentada de recuperación (RAG).

Seguridad y seguridad (versión preliminar)

Evaluador	Propósito	Entradas
Odio e injusticia	Identifica contenido sesgado, discriminatorio o odioso.	Consulta, respuesta
Sexual	Identifica contenido sexual inapropiado.	Consulta, respuesta
Violencia	Detecta contenido violento o incitación.	Consulta, respuesta
Autolesiones	Detecta el contenido que promueve o describe el daño propio.	Consulta, respuesta
Seguridad del contenido	Evaluación completa de diversos problemas de seguridad.	Consulta, respuesta
Materiales protegidos	Detecta el uso no autorizado de contenido protegido o con derechos de autor.	Consulta, respuesta
Vulnerabilidad de código	Identifica problemas de seguridad en el código generado.	Consulta, respuesta
Atributos no fundamentados	Detecta información fabricada o alucinada inferida de las interacciones del usuario.	Consulta, contexto, respuesta

Para obtener más información, consulte Evaluadores de riesgo y seguridad.

Agentes (versión preliminar)

Evaluador	Propósito	Entradas
Resolución de intenciones	Mide la precisión en que el agente identifica y aborda las intenciones del usuario.	Consulta, respuesta
Cumplimiento de tareas	Mide cuán bien lleva a cabo el agente las tareas identificadas.	Consulta, respuesta, definiciones de herramientas (opcional)
Precisión de llamadas de herramienta	Mide el estado en que el agente selecciona y llama a las herramientas correctas.	Consulta, ya sea respuesta o llamadas a herramientas, definiciones de herramientas

Evaluador	Propósito	Entradas
Cumplimiento de tareas	Mide si el agente sigue las tareas identificadas según las instrucciones del sistema.	Consulta, respuesta, definiciones de herramientas (opcional)
Finalización de tareas	Mide si el agente completó correctamente la tarea solicitada de un extremo a otro.	Consulta, respuesta, definiciones de herramientas (opcional)
Resolución de intenciones	Mide la precisión en que el agente identifica y aborda las intenciones del usuario.	Consulta, respuesta, definiciones de herramientas (opcional)
Eficiencia en la navegación de tareas	Determina si la secuencia de pasos del agente coincide con una ruta de acceso óptima o esperada para medir la eficacia.	Respuesta, verdad fundamental
Precisión de llamadas de herramienta	Mide la calidad general de las llamadas a herramientas, incluida la selección, la corrección de parámetros y la eficacia.	Consulta, Definiciones de herramientas, Llamadas a herramientas (Opcional), Respuesta
Selección de herramientas	Mide si el agente seleccionó las herramientas más adecuadas y eficaces para una tarea.	Consulta, Definiciones de herramientas, Llamadas a herramientas (Opcional), Respuesta
Precisión de entrada de la herramienta	Valida que todos los parámetros de llamada a herramientas sean correctos con criterios estrictos que incluyen la comprobación de base, el tipo, el formato, la integridad y la idoneidad.	Consulta, respuesta, definiciones de herramientas
Uso de la salida de la herramienta	Mide si el agente interpreta y usa correctamente las salidas de la herramienta en respuestas y llamadas posteriores.	Consulta, respuesta, definiciones de herramientas (opcional)
Éxito en la ejecución de la herramienta	Evalúa si todas las llamadas a herramientas se ejecutaron correctamente sin errores técnicos.	Respuesta, definiciones de herramientas (opcional)

Para obtener más información, consulte Evaluadores de agentes.

Calificadores de Azure OpenAI (versión preliminar)

Evaluador	Propósito	Entradas
Etiquetador de modelos	Clasifica el contenido mediante directrices y etiquetas personalizadas.	Consulta, respuesta, verdad fundamental
Comprobador de cadenas	Realiza validaciones de texto flexibles y coincidencia de patrones.	Respuesta
Similitud de texto	Evalúa la calidad del texto o determina la proximidad semántica.	Respuesta, verdad fundamental
Puntuador de modelos	Genera puntuaciones numéricas (intervalo personalizado) para el contenido en función de las directrices personalizadas.	Consulta, respuesta, verdad fundamental

Para más información, consulte Calificadores de Azure OpenAI.

Evaluadores en el ciclo de vida de desarrollo

Mediante el uso de estos evaluadores estratégicamente a lo largo del ciclo de vida de desarrollo, los equipos pueden crear aplicaciones de inteligencia artificial más confiables, seguras y eficaces que satisfagan las necesidades del usuario al tiempo que minimizan los posibles riesgos.

Las tres fases de la evaluación de GenAIOps

GenAIOps usa las tres fases siguientes.

Selección del modelo base

Antes de desarrollar su aplicación, debe escoger la base correcta. Esta evaluación inicial le ayuda a comparar diferentes modelos en función de:

Calidad y precisión: ¿Qué tan relevantes y coherentes son las respuestas del modelo?
Rendimiento de tareas: ¿el modelo controla los casos de uso específicos de forma eficaz?
Consideraciones éticas: ¿El modelo está libre de sesgos dañinos?
Perfil de seguridad: ¿Cuál es el riesgo de generar contenido no seguro?

Herramientas disponibles: prueba comparativa de Microsoft Foundry para comparar modelos en conjuntos de datos públicos o sus propios datos, y el SDK de evaluación de Azure AI para probar puntos de conexión de modelo específicos.

Evaluación de preproducción

Después de seleccionar un modelo base, el siguiente paso es desarrollar un agente o una aplicación de IA. Antes de realizar la implementación en un entorno de producción, las pruebas exhaustivas son esenciales para asegurarse de que el agente o la aplicación de IA estén listos para su uso real.

La evaluación previa a la producción implica:

Pruebas con conjuntos de datos de evaluación: estos conjuntos de datos simulan interacciones realistas del usuario para asegurarse de que el agente de IA funciona según lo previsto.
Identificación de casos perimetrales: la búsqueda de escenarios en los que la calidad de respuesta del agente de IA podría degradarse o producir salidas no deseadas.
Evaluación de la solidez: asegurarse de que el agente de IA pueda controlar una variedad de variaciones de entrada sin caídas significativas en la calidad o la seguridad.
Medición de métricas clave: se evalúan métricas como el cumplimiento de tareas, la base de respuesta, la relevancia y la seguridad para confirmar la preparación para la producción.

La fase de preproducción actúa como una comprobación de calidad final, lo que reduce el riesgo de implementar un agente de IA o una aplicación que no cumpla los estándares de rendimiento o seguridad deseados.

Herramientas y enfoques de evaluación:

Traiga sus propios datos: puede evaluar sus agentes y aplicaciones de inteligencia artificial en preproducción mediante sus propios datos de evaluación con evaluadores admitidos, incluidos evaluadores de calidad, seguridad o personalizados, y ver los resultados a través del portal de Foundry. Utilice el asistente de evaluación de Azure AI Foundry o los evaluadores compatibles del SDK de evaluación de Azure AI, incluidos los evaluadores de generación de calidad, seguridad o evaluadores personalizados. Vea los resultados mediante el portal de Foundry.
Simuladores y red teaming de IA: si no dispone de datos de evaluación (datos de prueba), los simuladores del SDK de evaluación de Azure AI pueden ayudarle a generar consultas relacionadas con el tema o adversarias. Estos simuladores prueban la respuesta del modelo a consultas apropiadas para la situación o tipo ataque (casos extremos).
- El agente de red teaming de IA simula ataques adversarios complejos contra el sistema de IA mediante una amplia gama de ataques de seguridad con el marco abierto de Microsoft para la Herramienta de identificación de riesgos de Python o PyRIT.
- Los simuladores adversarios insertan consultas estáticas que imitan posibles riesgos de seguridad o ataques de seguridad, como los intentos de jailbreak, lo que ayuda a identificar limitaciones y preparar el modelo para condiciones inesperadas.
- Los simuladores adecuados para el contexto generan conversaciones típicas y relevantes que esperaría que los usuarios prueben la calidad de las respuestas. Con los simuladores adecuados para el contexto, puede evaluar métricas como la base, la relevancia, la coherencia y la fluidez de las respuestas generadas.
Los escaneos automatizados mediante el agente de equipo rojo de IA mejoran la evaluación de riesgos en preproducción probando sistemáticamente las aplicaciones de inteligencia artificial para detectar riesgos. Este proceso implica escenarios de ataque simulados para identificar puntos débiles en las respuestas del modelo antes de la implementación real. Al ejecutar exámenes de formación de equipo rojo de IA, puede detectar y mitigar posibles problemas de seguridad antes de la implementación. Se recomienda usar esta herramienta con procesos humanos en bucle, como el sondeo convencional de formación de equipos rojos de IA para ayudar a acelerar la identificación de riesgos y ayudar a la evaluación por parte de un experto humano.

Como alternativa, también puede usar el portal de Foundry para probar las aplicaciones de IA generativas.

Traiga sus propios datos: puede evaluar sus aplicaciones de IA en la fase de preproducción usando sus propios datos de evaluación con evaluadores admitidos, incluyendo evaluadores de calidad de generación, seguridad o personalizados, y ver los resultados a través del portal Foundry. Utilice el asistente de evaluación de Foundry o los evaluadores compatibles del SDK de evaluación de Azure AI, incluidos los evaluadores de calidad de generación, seguridad o personalizados, y vea los resultados mediante el portal de Foundry.
Simuladores y agente de red teaming de IA: si no tiene datos de evaluación (datos de prueba), los simuladores pueden ayudarle mediante la generación de consultas relacionadas con temas o consultas adversarias. Estos simuladores prueban la respuesta del modelo a consultas apropiadas para la situación o tipo ataque (casos extremos).

El agente de red teaming de IA simula ataques adversarios complejos contra el sistema de IA mediante una amplia gama de ataques de seguridad con el marco abierto de Microsoft para la Herramienta de identificación de riesgos de Python o PyRIT.

Los análisis automatizados que usan el agente de red teaming de IA mejoran la evaluación de riesgos en la preproducción al realizar una prueba sistemática de las aplicaciones de IA en busca de riesgos. Este proceso implica escenarios de ataque simulados para identificar puntos débiles en las respuestas del modelo antes de la implementación real. Al ejecutar exámenes de formación de equipo rojo de IA, puede detectar y mitigar posibles problemas de seguridad antes de la implementación. Se recomienda usar esta herramienta con procesos humanos en bucle, como el sondeo convencional de formación de equipos rojos de IA para ayudar a acelerar la identificación de riesgos y ayudar a la evaluación por parte de un experto humano.

Como alternativa, también puede usar el portal de Foundry para probar las aplicaciones de IA generativas.

Después de obtener resultados satisfactorios, puede implementar la aplicación de inteligencia artificial en producción.

Supervisión posterior a la producción

Después de la implementación, la supervisión continua garantiza que la aplicación de IA mantenga la calidad en condiciones reales.

Métricas operativas: medición regular de las métricas operativas del agente de IA clave.
Evaluación continua: permite la evaluación de calidad y seguridad del tráfico de producción a un ritmo de muestreo.
Evaluación programada: habilita la evaluación programada de la calidad y la seguridad mediante un conjunto de datos de prueba para detectar el desfase en los sistemas subyacentes.
Red teaming programado: proporciona funcionalidades de prueba adversaria programadas para detectar vulnerabilidades de seguridad.
Alertas de Azure Monitor: acción rápida cuando se producen salidas perjudiciales o inapropiadas. Configure alertas para la evaluación continua y recibir notificaciones cuando los resultados de la evaluación bajen por debajo del umbral de tasa de aprobación en producción.

La supervisión eficaz ayuda a mantener la confianza del usuario y permite una resolución rápida de problemas.

La observabilidad proporciona funcionalidades de supervisión completas esenciales para el panorama de inteligencia artificial complejo y en constante evolución actual. Integrada sin problemas con Application Insights de Azure Monitor, esta solución permite la supervisión continua de las aplicaciones de inteligencia artificial implementadas para garantizar un rendimiento, seguridad y calidad óptimos en entornos de producción.

El panel De observabilidad de Foundry ofrece información en tiempo real sobre las métricas críticas. Permite a los equipos identificar y abordar rápidamente problemas de rendimiento, problemas de seguridad o degradación de la calidad.

En el caso de las aplicaciones basadas en agente, Foundry ofrece funcionalidades de evaluación continua mejoradas. Estas funcionalidades pueden proporcionar visibilidad más profunda de las métricas de calidad y seguridad. Pueden crear un ecosistema de supervisión sólido que se adapte a la naturaleza dinámica de las aplicaciones de inteligencia artificial, a la vez que mantienen altos estándares de rendimiento y confiabilidad.

Al supervisar continuamente el comportamiento de la aplicación de inteligencia artificial en producción, puede mantener experiencias de usuario de alta calidad y solucionar rápidamente los problemas que se produzcan.

Creación de confianza a través de la evaluación sistemática

GenAIOps establece un proceso confiable para administrar aplicaciones de inteligencia artificial a lo largo de su ciclo de vida. Al implementar una evaluación exhaustiva en cada fase, desde la selección de modelos a través de la implementación y versiones posteriores, los equipos pueden crear soluciones de inteligencia artificial que no sean solo eficaces, sino confiables y seguras.

Guía rápida de evaluación

Propósito	Proceso	Parámetros, instrucciones y ejemplos
¿Para qué está evaluando?	Identificación o compilación de evaluadores pertinentes	- Cuaderno de ejemplo de calidad y rendimiento - Calidad de respuesta de agentes - Seguridad y protección (Cuaderno de ejemplo de Seguridad y protección) - Personalizado (Cuaderno de ejemplo personalizado)
¿Qué datos debe usar?	Cargar o generar un conjunto de datos pertinente	- Simulador genérico para medir la calidad y el rendimiento (cuaderno de ejemplo de simulador genérico) - Simulador adversario para medir la seguridad y la protección (cuaderno de ejemplo del simulador adversario) - Agente de red teaming para IA para ejecutar exámenes automatizados para evaluar las vulnerabilidades de seguridad y protección (cuaderno de ejemplo del agente de red teaming para IA)
¿Cómo ejecutar evaluaciones en un conjunto de datos?	Ejecución de la evaluación	- Evaluación de agentes en ejecución - Ejecución remota en la nube - Ejecución local
¿Cómo ha funcionado mi modelo o aplicación?	Análisis de resultados	- Ver puntuaciones de agregado, ver detalles, detalles de puntuación, comparar ejecuciones de evaluación
¿Cómo puedo mejorar?	Realizar cambios en los modelos, aplicaciones o evaluadores	- Si los resultados de la evaluación no se alinean con los comentarios humanos, ajuste el evaluador. - Si los resultados de la evaluación se alinean con los comentarios humanos, pero no cumplen los umbrales de calidad y seguridad, aplique mitigaciones dirigidas. Ejemplo de mitigaciones que se aplicarán: Seguridad del contenido de Azure AI

Propósito	Proceso	Parámetros, instrucciones y ejemplos
¿Para qué está evaluando?	Identificación o compilación de evaluadores pertinentes	- Calidad de RAG - Calidad de agentes - Seguridad y protección (Cuaderno de ejemplo de Seguridad y protección) - Personalizado (Cuaderno de ejemplo personalizado)
¿Qué datos debe usar?	Cargar o generar un conjunto de datos pertinente	- Generación de conjuntos de datos sintéticos - Agente de red teaming para IA para ejecutar exámenes automatizados para evaluar las vulnerabilidades de seguridad y protección (cuaderno de ejemplo del agente de red teaming para IA)
¿Cómo ejecutar evaluaciones en un conjunto de datos?	Ejecución de la evaluación	- Evaluación de agentes en ejecución - Ejecución remota en la nube
¿Cómo ha funcionado mi modelo o aplicación?	Análisis de resultados	- Ver puntuaciones de agregado, ver detalles, detalles de puntuación, comparar ejecuciones de evaluación
¿Cómo puedo mejorar?	Realizar cambios en los modelos, aplicaciones o evaluadores	- Si los resultados de la evaluación no se alinean con los comentarios humanos, ajuste el evaluador. - Si los resultados de la evaluación se alinean con los comentarios humanos, pero no cumplen los umbrales de calidad y seguridad, aplique mitigaciones dirigidas. Ejemplo de mitigaciones que se aplicarán: Seguridad del contenido de Azure AI

Traiga su propia red virtual para su evaluación

Con fines de aislamiento de red, puede traer su propia red virtual para su evaluación. Para más información, consulte Configuración de un vínculo privado.

Nota:

Los datos de evaluación se envían a Application Insights si Application Insights está conectado. El soporte de red virtual para Application Insights y el seguimiento no está disponible.

Importante

Para evitar fallos en la evaluación y las simulaciones de equipos rojos, asigne el rol de Usuario de Azure AI a la identidad administrada del proyecto durante la configuración inicial del proyecto.

Compatibilidad con regiones de red virtual

Traiga su propia red virtual para la evaluación es compatible en todas las regiones excepto en India central, Asia oriental, Europa septentrional y Catar central.

Soporte para regiones

Actualmente, algunos evaluadores asistidos por IA solo están disponibles en las siguientes regiones:

Región	Odio e injusticia, Sexual, Violento, Autolesiones, Ataque indirecto, Vulnerabilidades de código, Atributos infundados	Base Pro	Material protegido
Este de EE. UU. 2	Compatible	Compatible	Compatible
Centro de Suecia	Compatible	Compatible	No disponible
Centro-norte de EE. UU.	Compatible	No disponible	No disponible
Centro de Francia	Compatible	No disponible	No disponible
Oeste de Suiza	Compatible	No disponible	No disponible

Admite la región de evaluación del área de juegos del agente

Región	Estado
East US	Compatible
Este de EE. UU. 2	Compatible
West US	Compatible
Oeste de EE. UU. 2	Compatible
Oeste de EE. UU. 3	Compatible
Centro de Francia	Compatible
Norway East	Compatible
Centro de Suecia	Compatible

Precios

Las características de observabilidad, como las evaluaciones de riesgos y seguridad y las evaluaciones continuas, se facturan en función del consumo, tal como se muestra en nuestra página de precios de Azure.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-01-05

Compartir a través de

Observabilidad en IA generativa

¿Qué es la observabilidad?

¿Qué son los evaluadores?

Uso general

Similitud de texto

RAG (generación aumentada de recuperación)

Seguridad y seguridad (versión preliminar)

Agentes (versión preliminar)

Calificadores de Azure OpenAI (versión preliminar)

Evaluadores en el ciclo de vida de desarrollo

Las tres fases de la evaluación de GenAIOps

Selección del modelo base

Evaluación de preproducción

Supervisión posterior a la producción

Creación de confianza a través de la evaluación sistemática

Guía rápida de evaluación

Traiga su propia red virtual para su evaluación

Compatibilidad con regiones de red virtual

Soporte para regiones

Admite la región de evaluación del área de juegos del agente

Precios

Contenido relacionado

Comentarios

Recursos adicionales