Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Les commentaires humains sont essentiels pour la création d’applications GenAI de haute qualité qui répondent aux attentes des utilisateurs. MLflow fournit des outils et un modèle de données pour collecter, gérer et utiliser des commentaires des développeurs, des utilisateurs finaux et des experts du domaine. Les commentaires humains complètent l’évaluation automatisée. Il peut vous aider à créer des jeux de données pour les juges et les scoreurs LLM automatisés, et vous aider à les maintenir alignés sur le jugement d’expert humain.
Présentation du modèle de données
MLflow stocke les commentaires humains en tant qu’évaluations, attachées à des traces MLflow individuelles. Cela lie directement les commentaires à une requête utilisateur spécifique et aux sorties et à la logique de votre application GenAI.
Il existe 2 types d’évaluation :
- Commentaires : évalue les sorties réelles ou les étapes intermédiaires de votre application. Par exemple, il répond à des questions telles que « La réponse de l’agent a-t-elle été bonne ? ». Les retours évaluent ce que l’application a produit, tels que les évaluations ou les commentaires. Les commentaires évaluent ce qui a été généré par l’application et fournissent des insights qualitatifs.
- Attente : définit le résultat souhaité ou correct (vérité de base) que votre application doit avoir produit. Par exemple, il peut s’agir de « La réponse idéale » à la requête d’un utilisateur. Pour une entrée donnée, l’attente est toujours la même. Les attentes définissent ce que l’application doit générer et sont utiles pour créer des jeux de données d’évaluation,
Les évaluations peuvent être attachées à l’intégralité de la trace ou à une étendue spécifique dans la trace.
Pour plus d’informations sur le suivi, consultez les concepts de trace.
Comment collecter des commentaires
MLflow vous aide à collecter des commentaires à partir de trois sources principales. Chaque source est adaptée à un cas d’usage différent dans le cycle de vie de votre application GenAI. Bien que les commentaires proviennent de différents personnages, le modèle de données sous-jacent est le même pour tous les personnages.
Retour de développeur
Pendant le développement, vous pouvez annoter directement les traces. Cela est utile pour suivre les notes de qualité lorsque vous créez et marquez des exemples spécifiques pour les tests de référence ou de régression futurs.
Pour savoir comment annoter les commentaires pendant le développement, consultez Étiquette pendant le développement.
Commentaires d’experts du domaine
Engagez les experts en matière de sujets à fournir des commentaires structurés sur les sorties de votre application et définissez les attentes en matière de réponses correctes. Leurs évaluations détaillées permettent de définir à quoi ressemblent des réponses de haute qualité pour votre cas d’usage spécifique et sont précieuses pour aligner les juges LLM avec des exigences métier nuancées.
MLflow fournit deux approches pour collecter des commentaires d’experts du domaine à l’aide de l’application de révision :
Tests interactifs avec l’interface utilisateur de conversation : les experts interagissent avec votre application déployée en temps réel via une interface de conversation, en fournissant des commentaires immédiats sur les réponses à mesure qu’ils testent les flux conversationnels. Cette approche est idéale pour les « vérifications d’ambiance » et la validation qualitative avant le déploiement de production. Pour plus d’informations, consultez Tester une version d’application avec l’interface utilisateur de conversation.
Étiquetage des traces existantes : les experts examinent et étiquetent systématiquement les traces qui ont déjà été capturées à partir de votre application. Cette approche est idéale pour les sessions d’évaluation structurées où les experts évaluent des exemples spécifiques et définissent des attentes de vérité de base. Pour en savoir plus, consultez Étiquetter les traces existantes.
Commentaires des utilisateurs finaux
En production, capturez les commentaires des utilisateurs qui interagissent avec votre application en direct. Cela fournit des insights essentiels sur les performances réelles, ce qui vous permet d’identifier les requêtes problématiques qui ont besoin de corriger et de mettre en évidence les interactions réussies pour préserver les futures mises à jour. MLflow fournit des outils pour capturer, stocker et analyser les commentaires directement à partir des utilisateurs de vos applications déployées.
Pour savoir comment collecter les commentaires des utilisateurs finaux, reportez-vous au guide de collecte des commentaires des utilisateurs finaux dans la section suivi.
Étapes suivantes
- Prise en main de la collecte de commentaires humains - Suivez ce didacticiel holistique illustrant les méthodes courantes de collecte des commentaires humains.
- Étiquette pendant le développement : commencez à annoter les traces pour suivre la qualité pendant le développement.
- Testez une version d’application avec l’interface utilisateur de conversation : testez votre application de manière interactive à l’aide d’une interface de conversation dynamique.
- Étiqueter les traces existantes - Configurer des processus de révision systématique d’experts.