Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
MLflow 3 pour GenAI est une plateforme ouverte qui unifie le suivi, l’évaluation et l’observabilité pour les applications et agents GenAI tout au long du cycle de vie de développement et de production. Il inclut la journalisation des traces en temps réel, les scoreurs intégrés et personnalisés, l’incorporation de commentaires humains et le suivi des versions pour vous aider à évaluer et améliorer efficacement la qualité de l’application pendant le développement et à poursuivre le suivi et l’amélioration de la qualité en production.
MLflow géré sur Databricks étend MLflow open source avec des fonctionnalités conçues pour les applications GenAI de production, notamment une gouvernance prête pour l’entreprise, un hébergement entièrement géré, une mise à l’échelle au niveau de la production et une intégration à vos données dans Databricks lakehouse et le Unity Catalog.
Pour plus d’informations sur l’évaluation de l’agent dans MLflow 2, consultez Mosaïque AI Agent Evaluation (MLflow 2) et le guide de migration. Pour MLflow 3, les méthodes du Kit de développement logiciel (SDK) d’évaluation de l’agent ont été intégrées à MLflow géré par Databricks.
Pour obtenir un ensemble de tutoriels pour commencer, consultez Prise en main.
Comment MLflow 3 permet d’optimiser la qualité des applications GenAI
L’évaluation des applications et des agents GenAI est plus complexe que l’évaluation des logiciels traditionnels. Les entrées et sorties sont souvent du texte de forme libre, et de nombreuses sorties différentes peuvent être considérées comme correctes. La qualité dépend non seulement de la précision, de la longueur, de l’exhaustivité, de l’adéquation et d’autres critères spécifiques au cas d’usage. Étant donné que les modules LLM sont intrinsèquement non déterministes et que les agents GenAI incluent des composants supplémentaires tels que les récupérateurs et les outils, leurs réponses peuvent varier d’une exécution à l’autre.
Les développeurs ont besoin de mesures de qualité concrètes, d’évaluation automatisée et de surveillance continue pour créer et déployer des applications IA robustes. MLflow 3 pour GenAI fournit ces éléments clés pour un développement, un déploiement et une amélioration continue efficaces :
- Le suivi enregistre automatiquement les entrées, les étapes intermédiaires et les sorties et fournit les bases de données pour l’évaluation et la surveillance.
- Les juges et les scoreurs LLM intégrés et personnalisés vous permettent de définir différents aspects de la qualité et de personnaliser les métriques en fonction de votre cas d’usage.
- Les applications de commentaires d’expert vous permettent de collecter et d’étiqueter des jeux de données pour l’évaluation et d’aligner les juges et les scoreurs automatisés avec le jugement d’expert.
- L’évaluation et la surveillance automatisées tirent parti des mêmes juges et scoreurs pendant le développement et la production.
- La versionnage des applications et des invites vous permet de comparer les versions et de suivre les améliorations au fil des itérations.
À l’aide de MLflow 3 sur Databricks, vous pouvez apporter de l’IA à vos données pour vous aider à mieux comprendre et améliorer la qualité. Le catalogue Unity fournit une gouvernance cohérente pour les messages d'alerte, les applications et les traces. À l’aide de n’importe quel modèle ou infrastructure, MLflow vous accompagne tout au long de la boucle de développement jusqu'à sa mise en production.
Get started
Commencez à créer de meilleures applications GenAI avec des outils d’observabilité et d’évaluation complets.
| Tâche | Descriptif |
|---|---|
| Guide de démarrage rapide | Démarrez en quelques minutes avec des instructions pas à pas pour configurer le monitoring de votre première application, exécuter des évaluations et collecter des retours utilisateurs. |
| Commencez : Traçage MLflow pour GenAI (Notebook Databricks) | Instrumentez une application GenAI simple pour capturer automatiquement des traces détaillées à des fins de débogage et d’optimisation. |
| Tutoriel : Évaluer et améliorer une application GenAI | Étapes pour évaluer une application de génération de courrier électronique qui utilise le Retrieval-Augmented Generation (RAG). |
| Démonstration de 10 minutes : Collecter des commentaires humains | Collectez les commentaires des utilisateurs finaux, ajoutez des annotations de développeur, créez des sessions de révision d’experts et utilisez ces commentaires pour évaluer la qualité de votre application GenAI. |
Traçage
Le suivi MLflow fournit l’observabilité et enregistre les données de trace requises pour l’évaluation et la surveillance.
| Caractéristique | Descriptif |
|---|---|
| Suivi MLflow | Observabilité de bout en bout pour les applications GenAI, y compris les systèmes complexes basés sur des agents. Suivez les entrées, les sorties, les étapes intermédiaires et les métadonnées pour obtenir une image complète de la façon dont votre application se comporte. |
| Qu’est-ce que le suivi ? | Présentation des concepts de suivi. |
| Passer en revue le comportement et les performances de votre application | Une visibilité complète de l’exécution vous permet de capturer des invites, des récupérations, des appels d’outils, des réponses, de la latence et des coûts. |
| Observabilité de production | Utilisez la même instrumentation dans les environnements de développement et de production pour une évaluation cohérente. |
| Créer des jeux de données d’évaluation | Analysez les traces pour identifier les problèmes de qualité, sélectionner des traces représentatives, créer des jeux de données d’évaluation et améliorer systématiquement votre application. |
| Suivi des intégrations | Le suivi MLflow est intégré à de nombreuses bibliothèques et infrastructures pour le suivi automatique qui vous permet d’obtenir une observabilité immédiate dans vos applications GenAI avec une configuration minimale. |
Évaluation et surveillance
Remplacez les tests manuels par l’évaluation automatisée à l’aide de juges et de scoreurs LLM intégrés et personnalisés qui correspondent à l’expertise humaine et peuvent être appliqués à la fois dans le développement et la production. Chaque interaction de production devient une occasion d’améliorer les flux de travail intégrés de commentaires et d’évaluation.
| Caractéristique | Descriptif |
|---|---|
| Évaluer et surveiller les agents GenAI | Vue d’ensemble de l’évaluation et de la surveillance des agents à l’aide de MLflow 3 sur Databricks. |
| Juges et évaluateurs LLM | MLflow 3 comprend des juges LLM intégrés pour la sécurité, la pertinence, la justesse, la qualité de récupération et bien plus encore. Vous pouvez également créer des juges LLM personnalisés et des scoreurs basés sur du code pour vos besoins métier spécifiques. |
| Évaluation | Exécutez l’évaluation pendant le développement ou dans le cadre d’un processus de mise en production. |
| Monitoring de la production | Surveillez en permanence un échantillon de trafic de production en utilisant des juges et des scoreurs LLM. |
| Collecter des commentaires humains | Collectez et utilisez les commentaires des experts du domaine et des utilisateurs finaux pendant le développement et pendant la production pour une amélioration continue. |
Gérer le cycle de vie des applications GenAI
Version, suivi et gouvernance de l’ensemble de votre application GenAI avec des outils de gestion et de gouvernance du cycle de vie de niveau entreprise.
| Caractéristique | Descriptif |
|---|---|
| Contrôle de version des applications | Suivez les métriques de code, de paramètres et d’évaluation pour chaque version. |
| Registre de l'invite de commande | Gestion centralisée pour le contrôle de version et le partage d’invites au sein de votre organisation avec des fonctionnalités de test A/B et l’intégration du catalogue Unity. |
| Intégration d’entreprise |
Catalogue Unity. Gouvernance unifiée pour toutes les ressources IA avec des fonctionnalités de sécurité, de contrôle d’accès et de conformité d’entreprise. Intelligence des données. Connectez vos données GenAI à vos données métier dans Databricks Lakehouse et fournissez des analyses personnalisées à vos parties prenantes de l’entreprise. Service de l’agent d’ia mosaïque. Déployez des agents en production avec mise à l’échelle et rigueur opérationnelle. |