Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page explique comment utiliser des benchmarks pour évaluer la précision de votre espace Génie.
Vue d’ensemble
Les benchmarks vous permettent de créer un ensemble de questions de test que vous pouvez exécuter pour évaluer la précision globale de la réponse de Genie. Un ensemble bien conçu de benchmarks couvrant les questions utilisateur les plus fréquemment posées permet d’évaluer la précision de votre espace Génie à mesure que vous l’affinez. Chaque espace Génie peut contenir jusqu’à 500 questions de référence.
Les questions de référence s’exécutent en tant que nouvelles conversations. Elles ne s’inscrivent pas dans le même contexte qu’une conversation Genie thématique. Chaque question est traitée en tant que nouvelle requête, en utilisant les instructions définies dans l’espace, y compris les exemples fournis de fonctions SQL et SQL.
Ajouter des questions de benchmark
Les questions de référence doivent refléter différentes façons de formuler les questions courantes posées par vos utilisateurs. Vous pouvez les utiliser pour vérifier la réponse de Genie aux variantes de formulation des questions ou à différents formats de questions.
Lors de la création d’une question de benchmark, vous pouvez éventuellement inclure une requête SQL dont le jeu de résultats est la réponse correcte. Pendant les exécutions de benchmark, la précision est évaluée en comparant le jeu de résultats de votre requête SQL à celle générée par Genie. Vous pouvez également utiliser les fonctions SQL du catalogue Unity comme réponses standard pour les benchmarks.
Pour ajouter une question de benchmark :
En haut de l’espace Génie, cliquez sur Benchmarks.
Cliquez sur Ajouter un benchmark.
Dans le champ Question, entrez une question de référence à tester.
(Facultatif) Fournissez une requête SQL qui répond à la question. Vous pouvez écrire votre propre requête en tapant dans le champ de texte SQL Answer, y compris les fonctions SQL du Unity Catalog. Vous pouvez également cliquer sur Générer SQL pour que Genie écrive la requête SQL pour vous. Utilisez une instruction SQL qui répond avec précision à la question que vous avez entrée.
Note
Cette étape est recommandée. La précision ne peut être évaluée automatiquement que pour les questions qui incluent cet exemple d’instruction SQL. Toute question qui n’inclut pas de réponse SQL nécessite une révision manuelle pour pouvoir être évaluée. Si vous utilisez le bouton Générer SQL , passez en revue l’instruction pour vous assurer qu’elle répond avec précision à la question.
(Facultatif) Cliquez sur Exécuter pour exécuter votre requête et afficher les résultats.
Une fois la modification terminée, cliquez sur Ajouter un benchmark.
Pour mettre à jour une question après l’enregistrement, cliquez sur
le crayon d’icône pour ouvrir la boîte de dialogue Mettre à jour la question .
Utiliser les points de référence pour tester d’autres formulations de questions
Lors de l’évaluation de la précision de votre espace Génie, il est important de structurer les tests pour refléter des scénarios réalistes. Les utilisateurs peuvent poser la même question de différentes manières. Databricks recommande d’ajouter plusieurs formulations de la même question et d’utiliser le même exemple SQL dans vos tests de référence afin d’évaluer entièrement la précision. La plupart des espaces Génie doivent inclure entre deux et quatre formulations de la même question.
Exécuter des questions de référence
Les utilisateurs disposant au moins d’autorisations CAN EDIT dans un espace Genie peuvent exécuter une évaluation de benchmark à tout moment. Vous pouvez exécuter toutes les questions de benchmark ou sélectionner un sous-ensemble de questions à tester.
Pour chaque question, Genie interprète l’entrée, génère SQL et retourne des résultats. Les résultats et SQL générés sont ensuite comparés à la réponse SQL définie dans la question de benchmark.
Pour exécuter toutes les questions de référence :
- En haut de l’espace Génie, cliquez sur Benchmarks.
- Cliquez sur Exécuter les questions de référence pour lancer l’exécution de test.
Pour exécuter un sous-ensemble de questions de benchmark :
- En haut de l’espace Génie, cliquez sur Benchmarks.
- Cochez les cases en regard des questions que vous souhaitez tester.
- Cliquez sur Exécuter la sélection pour démarrer la mise en œuvre du test sur les questions sélectionnées.
Vous pouvez également sélectionner un sous-ensemble de questions à partir d’un résultat de benchmark précédent et réexécuter ces questions spécifiques pour tester les améliorations.
Les benchmarks continuent à s’exécuter lorsque vous quittez la page. Vous pouvez vérifier les résultats sous l’onglet Évaluation une fois l’exécution terminée.
Interpréter les évaluations
Les critères suivants déterminent la façon dont les réponses Génie sont évaluées :
| Condition | Évaluation |
|---|---|
| Genie génère sql qui correspond exactement à la réponse SQL fournie | Bon |
| Genie génère un jeu de résultats qui correspond exactement au jeu de résultats produit par la réponse SQL | Bon |
| Genie génère un jeu de résultats avec les mêmes données que la réponse SQL , mais triée différemment | Bon |
| Genie génère un jeu de résultats avec des valeurs numériques arrondies à 4 chiffres significatifs identiques à la réponse SQL | Bon |
| Genie génère SQL qui produit un jeu de résultats vide ou retourne une erreur | Mauvais |
| Genie génère un jeu de résultats qui inclut des colonnes supplémentaires par rapport au jeu de résultats produit par la réponse SQL | Mauvais |
| Genie génère un résultat de cellule unique différent du résultat de cellule unique produit par la réponse SQL | Mauvais |
Révision manuelle nécessaire : les réponses sont marquées avec cette étiquette lorsque Genie ne peut pas évaluer la justesse ou lorsque les résultats de requête générés par Genie ne contiennent pas de correspondance exacte avec les résultats de la réponse SQL fournie. Toutes les questions de référence qui n’incluent pas de réponse SQL doivent être révisées manuellement.
Accéder aux évaluations des points de référence
Vous pouvez accéder à toutes vos évaluations de point de référence pour en suivre la précision dans votre espace Genie au fil du temps. Lorsque vous ouvrez les benchmarks d’un espace, une liste horodatée des exécutions d’évaluation s’affiche sous l’onglet Évaluations . Si aucune exécution d’évaluation n’est trouvée, consultez Ajouter des questions de benchmark ou exécuter des questions de benchmark.
L’onglet Évaluations affiche une vue d’ensemble des évaluations et de leurs performances signalées dans les catégories suivantes :
Nom de l’évaluation : horodatage qui indique quand une exécution d’évaluation s’est produite. Cliquez sur l’horodatage pour afficher les détails de cette évaluation. Statut d’exécution : indique si l’évaluation est terminée, suspendue ou si elle a échoué. Si une exécution d’évaluation inclut des questions de référence qui n’ont pas de réponses SQL prédéfinies, elle est marquée pour révision dans cette colonne. Précision : évaluation numérique de la précision pour toutes les questions de référence. Pour les exécutions d’évaluation qui nécessitent une révision manuelle, une mesure de précision n’apparaît qu’après la révision de ces questions. Créée par : indique le nom de l’utilisateur qui a exécuté l’évaluation.
Passer en revue les évaluations individuelles
Vous pouvez passer en revue les évaluations individuelles pour obtenir un aperçu détaillé de chaque réponse. Vous pouvez modifier l’évaluation pour toute question et mettre à jour tous les éléments qui ont besoin d’une révision manuelle.
Pour vérifier des évaluations individuelles :
En haut de l’espace Génie, cliquez sur Benchmarks.
Cliquez sur l’horodatage pour toute évaluation dans la colonne Nom de l’évaluation pour ouvrir une vue détaillée de cette exécution de test.
Utilisez la liste des questions sur le côté gauche de l’écran pour afficher une vue détaillée de chaque question.
Passez en revue et comparez la réponse du résultat du modèle à la réponse de la réalité du terrain.
Pour les résultats évalués comme incorrects, une explication apparaît pour décrire pourquoi le résultat a été évalué comme Mauvais. Cela vous aide à comprendre des différences spécifiques entre la sortie générée et la vérité de base attendue.
Note
Les résultats de ces réponses apparaissent dans les détails de l’évaluation pendant une semaine. Après une semaine, ces résultats ne seront plus visibles. L’instruction SQL générée et l’exemple d’instruction SQL sont conservés.
Cliquez sur Mettre à jour la vérité au sol pour enregistrer la réponse comme nouvelle vérité de terrain pour cette question. Cela est utile si aucune vérité terrestre n’existe, ou si la réponse est meilleure ou plus précise que l’énoncé de vérité terrestre existant.
Cliquez sur
sur le libellé pour modifier l’évaluation.Marquez chaque résultat comme Bon ou Mauvais pour obtenir un score précis pour cette évaluation.