Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota:
Este documento hace referencia al portal de Microsoft Foundry (clásico).
🔄 Cambie a la documentación de Microsoft Foundry (nueva) si usa el nuevo portal.
Nota:
Este documento hace referencia al portal deMicrosoft Foundry (nuevo).
Importante
Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.
En el mundo actual controlado por ia, Generative AI Operations (GenAIOps) está revolucionando la forma en que las organizaciones crean e implementan sistemas inteligentes. A medida que las empresas usan cada vez más agentes y aplicaciones de inteligencia artificial para transformar la toma de decisiones, mejorar las experiencias de los clientes y la innovación de combustible, un elemento es fundamental: marcos de evaluación sólidos. La evaluación no es solo un punto de control. Es la base de calidad y confianza en las aplicaciones de inteligencia artificial. Sin rigurosa evaluación y supervisión, los sistemas de inteligencia artificial pueden generar contenido que es:
- Fabricado o sin fundamento en la realidad
- Irrelevante o incoherente
- Perjudicial para perpetuar los riesgos de contenido y los estereotipos
- Peligroso en la propagación de información errónea
- Vulnerable a vulnerabilidades de seguridad
Aquí es donde la observabilidad es esencial. Estas funcionalidades miden tanto la frecuencia como la gravedad de los riesgos en las salidas de IA, lo que permite a los equipos abordar sistemáticamente los problemas de calidad, seguridad y seguridad a lo largo de todo el recorrido de desarrollo de inteligencia artificial, desde la selección del modelo adecuado para supervisar el rendimiento de producción, la calidad y la seguridad.
¿Qué es la observabilidad?
La observabilidad de la inteligencia artificial hace referencia a la capacidad de supervisar, comprender y solucionar problemas de los sistemas de inteligencia artificial a lo largo de su ciclo de vida. Implica recopilar y analizar señales como métricas de evaluación, registros, seguimientos y salidas de modelo y agente para obtener visibilidad del rendimiento, la calidad, la seguridad y el estado operativo.
¿Qué son los evaluadores?
Los evaluadores son herramientas especializadas que miden la calidad, la seguridad y la confiabilidad de las respuestas de inteligencia artificial. Al implementar evaluaciones sistemáticas a lo largo del ciclo de vida de desarrollo de inteligencia artificial, los equipos pueden identificar y solucionar posibles problemas antes de que afecten a los usuarios. Los siguientes evaluadores admitidos proporcionan funcionalidades de evaluación completas en diferentes tipos y preocupaciones de aplicaciones de IA:
Uso general
| Evaluador | Propósito | Entradas |
|---|---|---|
| Coherencia | Mide la coherencia lógica y el flujo de respuestas. | Consulta, respuesta |
| Fluidez | Mide la calidad y la legibilidad del lenguaje natural. | Respuesta |
| Aseguramiento de Calidad | Mide exhaustivamente varios aspectos de calidad en la respuesta a preguntas. | Consulta, contexto, respuesta, verdad fundamental |
Para obtener más información, consulte Evaluadores de uso general.
Similitud de texto
| Evaluador | Propósito | Entradas |
|---|---|---|
| Similitud | Medición de similitud textual asistida por IA. | Consulta, contexto, verdad fundamental |
| Puntuación F1 | Media armónica de precisión y recuperación en token se superpone entre la respuesta y la verdad fundamental. | Respuesta, verdad fundamental |
| BLEU | La puntuación de la evaluación bilingüe Understudy para las medidas de calidad de traducción se superpone en n-gramas entre la respuesta y la verdad fundamental. | Respuesta, verdad fundamental |
| GLEU | La variante de Google-BLEU para las medidas de evaluación de nivel de frase se superpone en n-gramas entre la respuesta y la verdad del suelo. | Respuesta, verdad fundamental |
| ROUGE | La Understudy orientada a la recuperación para las medidas de evaluación de Gisting se superpone en n-gramas entre la respuesta y la verdad fundamental. | Respuesta, verdad fundamental |
| METEORO | La métrica para la evaluación de la traducción con medidas de ordenación explícita se superpone en n-gramas entre la respuesta y la verdad fundamental. | Respuesta, verdad fundamental |
Para obtener más información, consulte Evaluadores de similitud de texto
RAG (generación aumentada de recuperación)
| Evaluador | Propósito | Entradas |
|---|---|---|
| Recuperación | Mide la eficacia en que el sistema recupera información relevante. | Consulta, contexto |
| Recuperación de documentos (versión preliminar) | Mide la precisión en los resultados de recuperación dada la verdad básica. | Verdad fundamental, documentos recuperados |
| Base | Mide la coherencia de la respuesta con respecto al contexto recuperado. | Consulta (opcional), contexto, respuesta |
| Groundedness Pro (versión preliminar) | Mide si la respuesta es coherente con respecto al contexto recuperado. | Consulta, contexto, respuesta |
| Pertinencia | Mide la importancia de la respuesta con respecto a la consulta. | Consulta, respuesta |
| Integridad de la respuesta (versión preliminar) | Mide en qué medida se completa la respuesta (no falta información crítica) con respecto a la verdad básica. | Respuesta, verdad fundamental |
Para más información, consulte Evaluadores de generación aumentada de recuperación (RAG).
Seguridad y seguridad (versión preliminar)
| Evaluador | Propósito | Entradas |
|---|---|---|
| Odio e injusticia | Identifica contenido sesgado, discriminatorio o odioso. | Consulta, respuesta |
| Sexual | Identifica contenido sexual inapropiado. | Consulta, respuesta |
| Violencia | Detecta contenido violento o incitación. | Consulta, respuesta |
| Autolesiones | Detecta el contenido que promueve o describe el daño propio. | Consulta, respuesta |
| Seguridad del contenido | Evaluación completa de diversos problemas de seguridad. | Consulta, respuesta |
| Materiales protegidos | Detecta el uso no autorizado de contenido protegido o con derechos de autor. | Consulta, respuesta |
| Vulnerabilidad de código | Identifica problemas de seguridad en el código generado. | Consulta, respuesta |
| Atributos no fundamentados | Detecta información fabricada o alucinada inferida de las interacciones del usuario. | Consulta, contexto, respuesta |
Para obtener más información, consulte Evaluadores de riesgo y seguridad.
Agentes (versión preliminar)
| Evaluador | Propósito | Entradas |
|---|---|---|
| Resolución de intenciones | Mide la precisión en que el agente identifica y aborda las intenciones del usuario. | Consulta, respuesta |
| Cumplimiento de tareas | Mide cuán bien lleva a cabo el agente las tareas identificadas. | Consulta, respuesta, definiciones de herramientas (opcional) |
| Precisión de llamadas de herramienta | Mide el estado en que el agente selecciona y llama a las herramientas correctas. | Consulta, ya sea respuesta o llamadas a herramientas, definiciones de herramientas |
| Evaluador | Propósito | Entradas |
|---|---|---|
| Cumplimiento de tareas | Mide si el agente sigue las tareas identificadas según las instrucciones del sistema. | Consulta, respuesta, definiciones de herramientas (opcional) |
| Finalización de tareas | Mide si el agente completó correctamente la tarea solicitada de un extremo a otro. | Consulta, respuesta, definiciones de herramientas (opcional) |
| Resolución de intenciones | Mide la precisión en que el agente identifica y aborda las intenciones del usuario. | Consulta, respuesta, definiciones de herramientas (opcional) |
| Eficiencia en la navegación de tareas | Determina si la secuencia de pasos del agente coincide con una ruta de acceso óptima o esperada para medir la eficacia. | Respuesta, verdad fundamental |
| Precisión de llamadas de herramienta | Mide la calidad general de las llamadas a herramientas, incluida la selección, la corrección de parámetros y la eficacia. | Consulta, Definiciones de herramientas, Llamadas a herramientas (Opcional), Respuesta |
| Selección de herramientas | Mide si el agente seleccionó las herramientas más adecuadas y eficaces para una tarea. | Consulta, Definiciones de herramientas, Llamadas a herramientas (Opcional), Respuesta |
| Precisión de entrada de la herramienta | Valida que todos los parámetros de llamada a herramientas sean correctos con criterios estrictos que incluyen la comprobación de base, el tipo, el formato, la integridad y la idoneidad. | Consulta, respuesta, definiciones de herramientas |
| Uso de la salida de la herramienta | Mide si el agente interpreta y usa correctamente las salidas de la herramienta en respuestas y llamadas posteriores. | Consulta, respuesta, definiciones de herramientas (opcional) |
| Éxito en la ejecución de la herramienta | Evalúa si todas las llamadas a herramientas se ejecutaron correctamente sin errores técnicos. | Respuesta, definiciones de herramientas (opcional) |
Para obtener más información, consulte Evaluadores de agentes.
Calificadores de Azure OpenAI (versión preliminar)
| Evaluador | Propósito | Entradas |
|---|---|---|
| Etiquetador de modelos | Clasifica el contenido mediante directrices y etiquetas personalizadas. | Consulta, respuesta, verdad fundamental |
| Comprobador de cadenas | Realiza validaciones de texto flexibles y coincidencia de patrones. | Respuesta |
| Similitud de texto | Evalúa la calidad del texto o determina la proximidad semántica. | Respuesta, verdad fundamental |
| Puntuador de modelos | Genera puntuaciones numéricas (intervalo personalizado) para el contenido en función de las directrices personalizadas. | Consulta, respuesta, verdad fundamental |
Para más información, consulte Calificadores de Azure OpenAI.
Evaluadores en el ciclo de vida de desarrollo
Mediante el uso de estos evaluadores estratégicamente a lo largo del ciclo de vida de desarrollo, los equipos pueden crear aplicaciones de inteligencia artificial más confiables, seguras y eficaces que satisfagan las necesidades del usuario al tiempo que minimizan los posibles riesgos.
Las tres fases de la evaluación de GenAIOps
GenAIOps usa las tres fases siguientes.
Selección del modelo base
Antes de desarrollar su aplicación, debe escoger la base correcta. Esta evaluación inicial le ayuda a comparar diferentes modelos en función de:
- Calidad y precisión: ¿Qué tan relevantes y coherentes son las respuestas del modelo?
- Rendimiento de tareas: ¿el modelo controla los casos de uso específicos de forma eficaz?
- Consideraciones éticas: ¿El modelo está libre de sesgos dañinos?
- Perfil de seguridad: ¿Cuál es el riesgo de generar contenido no seguro?
Herramientas disponibles: prueba comparativa de Microsoft Foundry para comparar modelos en conjuntos de datos públicos o sus propios datos, y el SDK de evaluación de Azure AI para probar puntos de conexión de modelo específicos.
Evaluación de preproducción
Después de seleccionar un modelo base, el siguiente paso es desarrollar un agente o una aplicación de IA. Antes de realizar la implementación en un entorno de producción, las pruebas exhaustivas son esenciales para asegurarse de que el agente o la aplicación de IA estén listos para su uso real.
La evaluación previa a la producción implica:
- Pruebas con conjuntos de datos de evaluación: estos conjuntos de datos simulan interacciones realistas del usuario para asegurarse de que el agente de IA funciona según lo previsto.
- Identificación de casos perimetrales: la búsqueda de escenarios en los que la calidad de respuesta del agente de IA podría degradarse o producir salidas no deseadas.
- Evaluación de la solidez: asegurarse de que el agente de IA pueda controlar una variedad de variaciones de entrada sin caídas significativas en la calidad o la seguridad.
- Medición de métricas clave: se evalúan métricas como el cumplimiento de tareas, la base de respuesta, la relevancia y la seguridad para confirmar la preparación para la producción.
La fase de preproducción actúa como una comprobación de calidad final, lo que reduce el riesgo de implementar un agente de IA o una aplicación que no cumpla los estándares de rendimiento o seguridad deseados.
Herramientas y enfoques de evaluación:
Traiga sus propios datos: puede evaluar sus agentes y aplicaciones de inteligencia artificial en preproducción mediante sus propios datos de evaluación con evaluadores admitidos, incluidos evaluadores de calidad, seguridad o personalizados, y ver los resultados a través del portal de Foundry. Utilice el asistente de evaluación de Azure AI Foundry o los evaluadores compatibles del SDK de evaluación de Azure AI, incluidos los evaluadores de generación de calidad, seguridad o evaluadores personalizados. Vea los resultados mediante el portal de Foundry.
Simuladores y red teaming de IA: si no dispone de datos de evaluación (datos de prueba), los simuladores del SDK de evaluación de Azure AI pueden ayudarle a generar consultas relacionadas con el tema o adversarias. Estos simuladores prueban la respuesta del modelo a consultas apropiadas para la situación o tipo ataque (casos extremos).
- El agente de red teaming de IA simula ataques adversarios complejos contra el sistema de IA mediante una amplia gama de ataques de seguridad con el marco abierto de Microsoft para la Herramienta de identificación de riesgos de Python o PyRIT.
- Los simuladores adversarios insertan consultas estáticas que imitan posibles riesgos de seguridad o ataques de seguridad, como los intentos de jailbreak, lo que ayuda a identificar limitaciones y preparar el modelo para condiciones inesperadas.
- Los simuladores adecuados para el contexto generan conversaciones típicas y relevantes que esperaría que los usuarios prueben la calidad de las respuestas. Con los simuladores adecuados para el contexto, puede evaluar métricas como la base, la relevancia, la coherencia y la fluidez de las respuestas generadas.
Los escaneos automatizados mediante el agente de equipo rojo de IA mejoran la evaluación de riesgos en preproducción probando sistemáticamente las aplicaciones de inteligencia artificial para detectar riesgos. Este proceso implica escenarios de ataque simulados para identificar puntos débiles en las respuestas del modelo antes de la implementación real. Al ejecutar exámenes de formación de equipo rojo de IA, puede detectar y mitigar posibles problemas de seguridad antes de la implementación. Se recomienda usar esta herramienta con procesos humanos en bucle, como el sondeo convencional de formación de equipos rojos de IA para ayudar a acelerar la identificación de riesgos y ayudar a la evaluación por parte de un experto humano.
Como alternativa, también puede usar el portal de Foundry para probar las aplicaciones de IA generativas.
Traiga sus propios datos: puede evaluar sus aplicaciones de IA en la fase de preproducción usando sus propios datos de evaluación con evaluadores admitidos, incluyendo evaluadores de calidad de generación, seguridad o personalizados, y ver los resultados a través del portal Foundry. Utilice el asistente de evaluación de Foundry o los evaluadores compatibles del SDK de evaluación de Azure AI, incluidos los evaluadores de calidad de generación, seguridad o personalizados, y vea los resultados mediante el portal de Foundry.
Simuladores y agente de red teaming de IA: si no tiene datos de evaluación (datos de prueba), los simuladores pueden ayudarle mediante la generación de consultas relacionadas con temas o consultas adversarias. Estos simuladores prueban la respuesta del modelo a consultas apropiadas para la situación o tipo ataque (casos extremos).
El agente de red teaming de IA simula ataques adversarios complejos contra el sistema de IA mediante una amplia gama de ataques de seguridad con el marco abierto de Microsoft para la Herramienta de identificación de riesgos de Python o PyRIT.
Los análisis automatizados que usan el agente de red teaming de IA mejoran la evaluación de riesgos en la preproducción al realizar una prueba sistemática de las aplicaciones de IA en busca de riesgos. Este proceso implica escenarios de ataque simulados para identificar puntos débiles en las respuestas del modelo antes de la implementación real. Al ejecutar exámenes de formación de equipo rojo de IA, puede detectar y mitigar posibles problemas de seguridad antes de la implementación. Se recomienda usar esta herramienta con procesos humanos en bucle, como el sondeo convencional de formación de equipos rojos de IA para ayudar a acelerar la identificación de riesgos y ayudar a la evaluación por parte de un experto humano.
Como alternativa, también puede usar el portal de Foundry para probar las aplicaciones de IA generativas.
Después de obtener resultados satisfactorios, puede implementar la aplicación de inteligencia artificial en producción.
Supervisión posterior a la producción
Después de la implementación, la supervisión continua garantiza que la aplicación de IA mantenga la calidad en condiciones reales.
Después de la implementación, la supervisión continua garantiza que la aplicación de IA mantenga la calidad en condiciones reales.
- Métricas operativas: medición regular de las métricas operativas del agente de IA clave.
- Evaluación continua: permite la evaluación de calidad y seguridad del tráfico de producción a un ritmo de muestreo.
- Evaluación programada: habilita la evaluación programada de la calidad y la seguridad mediante un conjunto de datos de prueba para detectar el desfase en los sistemas subyacentes.
- Red teaming programado: proporciona funcionalidades de prueba adversaria programadas para detectar vulnerabilidades de seguridad.
- Alertas de Azure Monitor: acción rápida cuando se producen salidas perjudiciales o inapropiadas. Configure alertas para la evaluación continua y recibir notificaciones cuando los resultados de la evaluación bajen por debajo del umbral de tasa de aprobación en producción.
La supervisión eficaz ayuda a mantener la confianza del usuario y permite una resolución rápida de problemas.
La observabilidad proporciona funcionalidades de supervisión completas esenciales para el panorama de inteligencia artificial complejo y en constante evolución actual. Integrada sin problemas con Application Insights de Azure Monitor, esta solución permite la supervisión continua de las aplicaciones de inteligencia artificial implementadas para garantizar un rendimiento, seguridad y calidad óptimos en entornos de producción.
El panel De observabilidad de Foundry ofrece información en tiempo real sobre las métricas críticas. Permite a los equipos identificar y abordar rápidamente problemas de rendimiento, problemas de seguridad o degradación de la calidad.
En el caso de las aplicaciones basadas en agente, Foundry ofrece funcionalidades de evaluación continua mejoradas. Estas funcionalidades pueden proporcionar visibilidad más profunda de las métricas de calidad y seguridad. Pueden crear un ecosistema de supervisión sólido que se adapte a la naturaleza dinámica de las aplicaciones de inteligencia artificial, a la vez que mantienen altos estándares de rendimiento y confiabilidad.
Al supervisar continuamente el comportamiento de la aplicación de inteligencia artificial en producción, puede mantener experiencias de usuario de alta calidad y solucionar rápidamente los problemas que se produzcan.
Creación de confianza a través de la evaluación sistemática
GenAIOps establece un proceso confiable para administrar aplicaciones de inteligencia artificial a lo largo de su ciclo de vida. Al implementar una evaluación exhaustiva en cada fase, desde la selección de modelos a través de la implementación y versiones posteriores, los equipos pueden crear soluciones de inteligencia artificial que no sean solo eficaces, sino confiables y seguras.
Guía rápida de evaluación
| Propósito | Proceso | Parámetros, instrucciones y ejemplos |
|---|---|---|
| ¿Para qué está evaluando? | Identificación o compilación de evaluadores pertinentes |
-
Cuaderno de ejemplo de calidad y rendimiento - Calidad de respuesta de agentes - Seguridad y protección (Cuaderno de ejemplo de Seguridad y protección) - Personalizado (Cuaderno de ejemplo personalizado) |
| ¿Qué datos debe usar? | Cargar o generar un conjunto de datos pertinente |
-
Simulador genérico para medir la calidad y el rendimiento (cuaderno de ejemplo de simulador genérico) - Simulador adversario para medir la seguridad y la protección (cuaderno de ejemplo del simulador adversario) - Agente de red teaming para IA para ejecutar exámenes automatizados para evaluar las vulnerabilidades de seguridad y protección (cuaderno de ejemplo del agente de red teaming para IA) |
| ¿Cómo ejecutar evaluaciones en un conjunto de datos? | Ejecución de la evaluación |
-
Evaluación de agentes en ejecución - Ejecución remota en la nube - Ejecución local |
| ¿Cómo ha funcionado mi modelo o aplicación? | Análisis de resultados | - Ver puntuaciones de agregado, ver detalles, detalles de puntuación, comparar ejecuciones de evaluación |
| ¿Cómo puedo mejorar? | Realizar cambios en los modelos, aplicaciones o evaluadores | - Si los resultados de la evaluación no se alinean con los comentarios humanos, ajuste el evaluador. - Si los resultados de la evaluación se alinean con los comentarios humanos, pero no cumplen los umbrales de calidad y seguridad, aplique mitigaciones dirigidas. Ejemplo de mitigaciones que se aplicarán: Seguridad del contenido de Azure AI |
| Propósito | Proceso | Parámetros, instrucciones y ejemplos |
|---|---|---|
| ¿Para qué está evaluando? | Identificación o compilación de evaluadores pertinentes |
-
Calidad de RAG - Calidad de agentes - Seguridad y protección (Cuaderno de ejemplo de Seguridad y protección) - Personalizado (Cuaderno de ejemplo personalizado) |
| ¿Qué datos debe usar? | Cargar o generar un conjunto de datos pertinente |
-
Generación de conjuntos de datos sintéticos - Agente de red teaming para IA para ejecutar exámenes automatizados para evaluar las vulnerabilidades de seguridad y protección (cuaderno de ejemplo del agente de red teaming para IA) |
| ¿Cómo ejecutar evaluaciones en un conjunto de datos? | Ejecución de la evaluación |
-
Evaluación de agentes en ejecución - Ejecución remota en la nube |
| ¿Cómo ha funcionado mi modelo o aplicación? | Análisis de resultados | - Ver puntuaciones de agregado, ver detalles, detalles de puntuación, comparar ejecuciones de evaluación |
| ¿Cómo puedo mejorar? | Realizar cambios en los modelos, aplicaciones o evaluadores | - Si los resultados de la evaluación no se alinean con los comentarios humanos, ajuste el evaluador. - Si los resultados de la evaluación se alinean con los comentarios humanos, pero no cumplen los umbrales de calidad y seguridad, aplique mitigaciones dirigidas. Ejemplo de mitigaciones que se aplicarán: Seguridad del contenido de Azure AI |
Traiga su propia red virtual para su evaluación
Con fines de aislamiento de red, puede traer su propia red virtual para su evaluación. Para más información, consulte Configuración de un vínculo privado.
Nota:
Los datos de evaluación se envían a Application Insights si Application Insights está conectado. El soporte de red virtual para Application Insights y el seguimiento no está disponible.
Importante
Para evitar fallos en la evaluación y las simulaciones de equipos rojos, asigne el rol de Usuario de Azure AI a la identidad administrada del proyecto durante la configuración inicial del proyecto.
Compatibilidad con regiones de red virtual
Traiga su propia red virtual para la evaluación es compatible en todas las regiones excepto en India central, Asia oriental, Europa septentrional y Catar central.
Soporte para regiones
Actualmente, algunos evaluadores asistidos por IA solo están disponibles en las siguientes regiones:
| Región | Odio e injusticia, Sexual, Violento, Autolesiones, Ataque indirecto, Vulnerabilidades de código, Atributos infundados | Base Pro | Material protegido |
|---|---|---|---|
| Este de EE. UU. 2 | Compatible | Compatible | Compatible |
| Centro de Suecia | Compatible | Compatible | No disponible |
| Centro-norte de EE. UU. | Compatible | No disponible | No disponible |
| Centro de Francia | Compatible | No disponible | No disponible |
| Oeste de Suiza | Compatible | No disponible | No disponible |
Admite la región de evaluación del área de juegos del agente
| Región | Estado |
|---|---|
| East US | Compatible |
| Este de EE. UU. 2 | Compatible |
| West US | Compatible |
| Oeste de EE. UU. 2 | Compatible |
| Oeste de EE. UU. 3 | Compatible |
| Centro de Francia | Compatible |
| Norway East | Compatible |
| Centro de Suecia | Compatible |
Precios
Las características de observabilidad, como las evaluaciones de riesgos y seguridad y las evaluaciones continuas, se facturan en función del consumo, tal como se muestra en nuestra página de precios de Azure.