Partager via


Bloc-notes du didacticiel d’évaluation de l’agent d’ia mosaïque (MLflow 2)

Important

Databricks recommande d’utiliser MLflow 3 pour évaluer et surveiller les applications GenAI. Cette page décrit l’évaluation de l’agent MLflow 2.

Le notebook suivant exmplique comment évaluer une application de génération d'IA à l'aide des juges LLM exclusifs d'Agent Evaluation. Il présente également les métriques personnalisées et les étiquettes provenant d'experts du domaine. Il illustre les éléments suivants :

  • Comment charger des journaux de production (traces) dans un jeu de données d’évaluation.
  • Comment exécuter une évaluation et effectuer une analyse de la cause racine.
  • Comment créer des métriques personnalisées pour détecter automatiquement les problèmes de qualité.
  • Comment envoyer des journaux de production afin que les PME puissent étiqueter et faire évoluer le jeu de données destiné à l’évaluation.

Pour préparer votre agent pour la préproduction, consultez le notebook de démonstration de l’agent Mosaic AI. Pour obtenir des informations générales, consultez l’évaluation de l’agent d’IA Mosaic (MLflow 2).

Notebook sur les métriques personnalisées d'Agent Evaluation, les consignes et les étiquettes provenant d'experts du domaine

Obtenir un ordinateur portable