MLflow 3 para GenAI

MLflow 3 para GenAI es una plataforma abierta que unifica el seguimiento, la evaluación y la observabilidad de las aplicaciones y agentes de GenAI durante todo el ciclo de vida de desarrollo y producción. Incluye registros de seguimiento en tiempo real, puntuadores integrados y personalizados, incorporación de comentarios humanos y seguimiento de versiones para ayudarle a evaluar y mejorar eficazmente la calidad de la aplicación durante el desarrollo y continuar el seguimiento y mejorar la calidad en producción.

Managed MLflow on Databricks amplía MLflow de código abierto con capacidades diseñadas para aplicaciones GenAI de producción, incluidas el liderazgo empresarial, el hospedaje totalmente administrado, la escalabilidad a nivel de producción y la integración con sus datos en el lago de datos de Databricks y Unity Catalog.

Para obtener información sobre la evaluación del agente en MLflow 2, consulte Mosaic AI Agent Evaluation (MLflow 2) y la guía de migración. Para MLflow 3, los métodos del SDK de evaluación del agente se han integrado con MLflow administrado por Databricks.

Para obtener un conjunto de tutoriales para empezar, consulte Introducción.

Cómo MLflow 3 ayuda a optimizar la calidad de la aplicación GenAI

La evaluación de aplicaciones y agentes de GenAI es más compleja que evaluar el software tradicional. Las entradas y salidas suelen ser texto de forma libre y muchas salidas diferentes se pueden considerar correctas. La calidad no solo depende de la exactitud, sino también de factores como precisión, longitud, integridad, idoneidad y otros criterios específicos del caso de uso. Dado que las LLM son intrínsecamente no deterministas, y los agentes de GenAI incluyen componentes adicionales, como recuperadores y herramientas, sus respuestas pueden variar de la ejecución a la ejecución.

Los desarrolladores necesitan métricas de calidad concretas, evaluación automatizada y supervisión continua para compilar e implementar aplicaciones de INTELIGENCIA ARTIFICIAL sólidas. MLflow 3 para GenAI proporciona estas partes clave para el desarrollo, la implementación y la mejora continua eficientes:

El seguimiento registra automáticamente las entradas, los pasos intermedios y las salidas, y proporciona la base de datos para la evaluación y la supervisión.
Los jueces y los puntuadores LLM integrados y personalizados le permiten definir varios aspectos de la calidad y personalizar las métricas en su caso de uso.
Revisar las aplicaciones para obtener comentarios expertos le permite recopilar y etiquetar conjuntos de datos para su evaluación y alinear jueces y puntuadores automatizados con criterio experto.
La evaluación y supervisión automatizadas emplean a los mismos jueces y evaluadores durante el desarrollo y la producción.
El control de versiones de la aplicación y el mensaje le permite comparar distintas versiones y realizar un seguimiento de las mejoras en las iteraciones.

Con MLflow 3 en Databricks, puede llevar la inteligencia artificial a los datos para ayudarle a comprender y mejorar la calidad. El catálogo de Unity proporciona una gobernanza coherente para solicitudes, aplicaciones y seguimientos. Con cualquier modelo o framework, MLflow le admite en todo el bucle de desarrollo hasta su implementación en producción.

Comienza

Empiece a crear mejores aplicaciones genAI con herramientas completas de observabilidad y evaluación.

Tarea	Descripción
Guía de inicio rápido	Empiece a funcionar en minutos con instrucciones paso a paso para configurar su primera aplicación con trazabilidad, realizar evaluaciones y recopilar comentarios humanos.
Introducción: Seguimiento de MLflow para GenAI (Cuaderno de Databricks)	Instrumente una aplicación GenAI sencilla para capturar automáticamente rastros detallados para la depuración y la optimización.
Tutorial: Evaluación y mejora de una aplicación de GenAI	Guía paso a paso la evaluación de una aplicación de generación de emails que usa Retrieval-Augmented Generation (RAG).
Demostración de 10 minutos: Recopilación de comentarios humanos	Recopile comentarios del usuario final, agregue anotaciones para desarrolladores, cree sesiones de revisión expertos y use esos comentarios para evaluar la calidad de la aplicación GenAI.

Rastreo

El seguimiento de MLflow proporciona observabilidad y registra los datos de seguimiento necesarios para la evaluación y la supervisión.

Característica	Descripción
Rastreo de MLflow	Observabilidad integral para aplicaciones GenAI, incluidos sistemas complejos basados en agentes. Realice un seguimiento de las entradas, salidas, pasos intermedios y metadatos para obtener una imagen completa de cómo se comporta la aplicación.
¿Qué es el seguimiento?	Introducción a los conceptos de seguimiento.
Revisar el comportamiento y el rendimiento de la aplicación	La visibilidad de la ejecución completa permite capturar mensajes, recuperaciones, llamadas a herramientas, respuestas, latencia y costos.
Observabilidad de producción	Use la misma instrumentación en entornos de desarrollo y producción para una evaluación coherente.
Creación de conjuntos de datos de evaluación	Analice los seguimientos para identificar problemas de calidad, seleccione seguimientos representativos, cree conjuntos de datos de evaluación y mejore sistemáticamente la aplicación.
Trazado de integraciones	El seguimiento de MLflow se integra con muchas bibliotecas y marcos para el seguimiento automático que permite obtener observabilidad inmediata en las aplicaciones de GenAI con una configuración mínima.

Evaluación y supervisión

Reemplace las pruebas manuales por evaluación automatizada mediante jueces y puntuadores de LLM integrados y personalizados que coincidan con la experiencia humana y se pueden aplicar tanto en desarrollo como en producción. Cada interacción de producción se convierte en una oportunidad para mejorar con flujos de trabajo de evaluación y comentarios integrados.

Característica	Descripción
Evaluación y supervisión de agentes de GenAI	Introducción a la evaluación y supervisión de agentes mediante MLflow 3 en Databricks.
Jueces y puntuadores de LLM	MLflow 3 incluye jueces LLM integrados para la seguridad, relevancia, corrección, calidad de recuperación y mucho más. También puede crear jueces de LLM personalizados y puntuadores basados en código para sus requisitos empresariales específicos.
Evaluación	Ejecute la evaluación durante el desarrollo o como parte de un proceso de versión.
Supervisión de producción	Supervise continuamente una muestra del tráfico de producción mediante jueces y puntuadores de LLM.
Recopilación de comentarios humanos	Recopile y use comentarios de expertos de dominio y usuarios finales durante el desarrollo y durante la producción para mejorar continuamente.

Administración del ciclo de vida de la aplicación GenAI

Versiona, rastrea y gobierna toda tu aplicación GenAI mediante herramientas de gestión y gobernanza del ciclo de vida a nivel empresarial.

Característica	Descripción
Control de versiones de aplicaciones	Realice un seguimiento del código, los parámetros y las métricas de evaluación de cada versión.
Registro de solicitud	Administración centralizada para el control de versiones y el uso compartido de indicaciones en toda la organización con pruebas A/B e integración del catálogo de Unity.
Integración empresarial	Unity Catalog. Gobernanza unificada para todos los recursos de inteligencia artificial con características de seguridad empresarial, control de acceso y cumplimiento. Inteligencia de datos. Conecte los datos de GenAI a los datos empresariales en Databricks Lakehouse y entregue análisis personalizados a las partes interesadas de la empresa. Servicio de agente de IA de Mosaico. Despliegue agentes en producción, asegurando el escalado y el rigor operativo.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-12-03