Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Databricks recommande d’utiliser MLflow 3 pour évaluer et surveiller les applications GenAI. Cette page décrit l’évaluation de l’agent MLflow 2.
- Pour une introduction à l’évaluation et à la surveillance sur MLflow 3, consultez Évaluer et surveiller les agents IA.
- Pour plus d’informations sur la migration vers MLflow 3, consultez Migrer vers MLflow 3 à partir de l’évaluation de l’agent.
- Pour plus d’informations sur MLflow 3 sur cette rubrique, consultez Évaluer et surveiller les agents IA.
Le notebook suivant exmplique comment évaluer une application de génération d'IA à l'aide des juges LLM exclusifs d'Agent Evaluation. Il présente également les métriques personnalisées et les étiquettes provenant d'experts du domaine. Il illustre les éléments suivants :
- Comment charger des journaux de production (traces) dans un jeu de données d’évaluation.
- Comment exécuter une évaluation et effectuer une analyse de la cause racine.
- Comment créer des métriques personnalisées pour détecter automatiquement les problèmes de qualité.
- Comment envoyer des journaux de production afin que les PME puissent étiqueter et faire évoluer le jeu de données destiné à l’évaluation.
Pour préparer votre agent pour la préproduction, consultez le notebook de démonstration de l’agent Mosaic AI. Pour obtenir des informations générales, consultez l’évaluation de l’agent d’IA Mosaic (MLflow 2).