Benchmarks gebruiken in een Genie-ruimte

Op deze pagina wordt uitgelegd hoe u benchmarks gebruikt om de nauwkeurigheid van uw Genie-ruimte te evalueren.

Overzicht

Met benchmarks kunt u een set testvragen maken die u kunt uitvoeren om de algehele reactienauwkeurigheid van Genie te beoordelen. Een goed ontworpen reeks benchmarks die betrekking hebben op de meest gestelde vragen van gebruikers, helpt bij het evalueren van de nauwkeurigheid van uw Genie-ruimte terwijl u deze verfijnt. Elke Genie-ruimte kan maximaal 500 benchmarkvragen bevatten.

Benchmarkvragen worden als nieuwe gesprekken uitgevoerd. Ze hebben niet dezelfde context als een gestructureerd Genie-gesprek. Elke vraag wordt verwerkt als een nieuwe query, met behulp van de instructies die in de ruimte zijn gedefinieerd, inclusief eventuele voorbeelden van SQL- en SQL-functies.

Voorbeeldbenchmarks met de nauwkeurigheid zoals gerapporteerd over negen vragen.

Benchmarkvragen toevoegen

Benchmarkvragen moeten verschillende manieren weerspiegelen om de veelgestelde vragen te formuleren die uw gebruikers stellen. U kunt deze gebruiken om het antwoord van Genie te controleren op variaties in de formulering van vragen of verschillende vraagindelingen.

Wanneer u een benchmarkvraag maakt, kunt u desgewenst een SQL-query opnemen waarvan de resultatenset het juiste antwoord is. Tijdens benchmarkuitvoeringen wordt de nauwkeurigheid beoordeeld door de resultatenset van uw SQL-query te vergelijken met de set die door Genie wordt gegenereerd. U kunt Unity Catalog SQL-functies ook gebruiken als goudstandaardantwoorden voor benchmarks.

Een benchmarkvraag toevoegen:

Klik aan de bovenkant van de Genie-ruimte op Benchmarks.
Klik op Benchmark toevoegen.
Voer in het veld Vraag een benchmarkvraag in die u wilt testen.
(Optioneel) Geef een SQL-query op waarmee de vraag wordt beantwoord. U kunt uw eigen query schrijven door te typen in het tekstveld SQL Answer , inclusief Unity Catalog SQL-functies. U kunt ook op SQL genereren klikken om Genie de SQL-query voor u te laten schrijven. Gebruik een SQL-instructie waarmee de vraag die u hebt ingevoerd nauwkeurig wordt beantwoord.

Notitie

Deze stap wordt aanbevolen. Alleen vragen die deze SQL-voorbeeldinstructie bevatten, kunnen automatisch worden beoordeeld op nauwkeurigheid. Voor vragen die geen SQL Answer bevatten, is handmatige beoordeling noodzakelijk voor een score. Als u de knop SQL genereren gebruikt, controleert u de instructie om er zeker van te zijn dat deze de vraag nauwkeurig beantwoordt.
(Optioneel) Klik op uitvoeren om uw query uit te voeren en de resultaten weer te geven.
Wanneer u klaar bent met bewerken, klikt u op Benchmark toevoegen.
Als u een vraag wilt bijwerken nadat u deze hebt opgeslagen, klikt u op het potloodpictogram om het dialoogvenster Vraag bijwerken te openen.

Benchmarks gebruiken om alternatieve formuleringen met vragen te testen

Bij het evalueren van de nauwkeurigheid van uw Genie-ruimte is het belangrijk om tests te structuren om realistische scenario's weer te geven. Gebruikers kunnen op verschillende manieren dezelfde vraag stellen. Databricks raadt aan om meerdere formuleringen van dezelfde vraag toe te voegen en hetzelfde voorbeeld van SQL in uw benchmarktests te gebruiken om de nauwkeurigheid volledig te beoordelen. De meeste Genie-ruimten moeten tussen twee en vier formuleringen van dezelfde vraag bevatten.

Benchmarkvragen uitvoeren

Gebruikers met ten minste CAN EDIT-machtigingen in een Genie-ruimte kunnen op elk gewenst moment een benchmark-evaluatie uitvoeren. U kunt alle benchmarkvragen uitvoeren of een subset vragen selecteren die u wilt testen.

Voor elke vraag interpreteert Genie de invoer, genereert SQL en retourneert het resultaat. De gegenereerde SQL en resultaten worden vervolgens vergeleken met het SQL-antwoord dat is gedefinieerd in de benchmarkvraag.

Om alle benchmarkvragen uit te voeren

Klik aan de bovenkant van de Genie-ruimte op Benchmarks.
Klik op Benchmarks uitvoeren om de testuitvoering te starten.

Een subset van benchmarkvragen uitvoeren:

Klik aan de bovenkant van de Genie-ruimte op Benchmarks.
Schakel de selectievakjes in naast de vragen die u wilt testen.
Klik op Uitvoeren geselecteerd om de testuitvoering te starten op de geselecteerde vragen.

U kunt ook een subset met vragen selecteren uit een vorig benchmarkresultaat en deze specifieke vragen opnieuw uitvoeren om verbeteringen te testen.

Benchmarks blijven actief wanneer u van de pagina navigeert. U kunt de resultaten controleren op het tabblad Evaluatie wanneer de uitvoering is voltooid.

Classificaties interpreteren

De volgende criteria bepalen hoe Genie-reacties worden beoordeeld:

Condition	Beoordeling
Genie genereert SQL die exact overeenkomt met het opgegeven SQL-antwoord	Goed
Genie genereert een resultatenset die exact overeenkomt met de resultatenset die wordt geproduceerd door sql Answer	Goed
Genie genereert een resultatenset met dezelfde gegevens als sql Answer , maar anders gesorteerd	Goed
Genie genereert een resultatenset met numerieke waarden die worden afgerond op dezelfde vier significante cijfers als het SQL-antwoord	Goed
Genie genereert SQL die een lege resultatenset produceert of een fout retourneert	Slecht
Genie genereert een resultatenset die extra kolommen bevat vergeleken met de resultatenset die wordt geproduceerd door sql Answer	Slecht
Genie genereert één celresultaat dat verschilt van het resultaat van één cel dat wordt geproduceerd door het SQL Answer	Slecht

Handmatige controle nodig: antwoorden worden gemarkeerd met dit label wanneer Genie de juistheid niet kan beoordelen of wanneer door Genie gegenereerde queryresultaten geen exacte overeenkomst bevatten met de resultaten van het opgegeven SQL-antwoord. Benchmarkvragen die geen SQL Answer bevatten, moeten handmatig worden gecontroleerd.

Evaluaties van Access-benchmark

U hebt toegang tot al uw benchmark-evaluaties om de nauwkeurigheid in uw Genie-ruimte in de loop van de tijd bij te houden. Wanneer u de Benchmarks van een ruimte opent, wordt er een lijst met tijdsaanduidingen van evaluatiesessies weergegeven op het tabblad Evaluaties. Als er geen evaluatiesessies worden gevonden, zie Benchmarkvragen toevoegen of Benchmarkvragen uitvoeren.

Evaluatiescherm zoals wordt beschreven in de volgende tekst.

Op het tabblad Evaluaties ziet u een overzicht van de evaluaties en de prestaties die in de volgende categorieën zijn gerapporteerd:

Evaluatienaam: een tijdstempel die aangeeft wanneer een evaluatieuitvoering heeft plaatsgevonden. Klik op de tijdstempel om details voor die evaluatie weer te geven. Uitvoeringsstatus: Geeft aan of de evaluatie is voltooid, onderbroken of mislukt. Als een evaluatieuitvoering benchmarkvragen bevat die geen vooraf gedefinieerde SQL-antwoorden hebben, wordt deze gemarkeerd voor beoordeling in deze kolom. Nauwkeurigheid: Een numerieke beoordeling van nauwkeurigheid in alle benchmarkvragen. Voor evaluatieuitvoeringen waarvoor handmatige controle is vereist, wordt er pas een nauwkeurigheidsmeting weergegeven nadat deze vragen zijn beoordeeld. Gemaakt door: Geeft de naam aan van de gebruiker die de evaluatie heeft uitgevoerd.

Afzonderlijke evaluaties bekijken

U kunt afzonderlijke evaluaties bekijken om elk antwoord gedetailleerd te bekijken. U kunt de evaluatie bewerken voor elke vraag en alle items bijwerken die handmatig moeten worden gecontroleerd.

Afzonderlijke evaluaties bekijken:

Klik aan de bovenkant van de Genie-ruimte op Benchmarks.
Klik op de tijdstempel voor een evaluatie in de kolom Evaluatienaam om een gedetailleerde weergave van die testuitvoering te openen.
Gebruik de lijst met vragen aan de linkerkant van het scherm om een gedetailleerde weergave van elke vraag te bekijken.
Controleer en vergelijk het uitvoerantwoord van het model met het antwoord Ground truth.

Voor resultaten die als onjuist zijn beoordeeld, wordt een uitleg weergegeven waarin wordt beschreven waarom het resultaat als Ongeldig is beoordeeld. Dit helpt u specifieke verschillen te begrijpen tussen de gegenereerde uitvoer en de verwachte werkelijkheidswaarde.

Notitie

De resultaten van deze antwoorden worden één week weergegeven in de evaluatiedetails. Na een week zijn de resultaten niet meer zichtbaar. De gegenereerde SQL-instructie en de voorbeeld-SQL-instructie blijven behouden.
Klik op Grondwaar bijwerken om het antwoord op te slaan als de nieuwe Grondwaar voor deze vraag. Dit is handig als er geen grondwaar bestaat, of als het antwoord beter of nauwkeuriger is dan de bestaande grondwaarverklaring.
Klik op het label om de evaluatie te bewerken.

Markeer elk resultaat als Good of Bad om een nauwkeurige score voor deze evaluatie te krijgen.

Feedback

Is deze pagina nuttig?

Last updated on 2025-10-23