Verwenden von Benchmarks in einem Genie-Space

Auf dieser Seite wird erläutert, wie Benchmarks verwendet werden, um die Genauigkeit Ihres Genie-Raums zu bewerten.

Überblick

Mit Benchmarks können Sie eine Reihe von Testfragen erstellen, die Sie ausführen können, um die Gesamtantwortgenauigkeit von Genie zu bewerten. Eine intelligent programmierte Reihe von Benchmarks, die die am häufigsten gestellten Benutzerfragen abdecken, hilft, die Genauigkeit Ihres Genie-Space zu bewerten, während Sie sie verfeinern. Jeder Genie Space kann bis zu 500 Benchmarkfragen enthalten.

Benchmarkfragen werden als neue Unterhaltungen ausgeführt. Sie haben nicht denselben Kontext wie eine Genie-Thread-Unterhaltung. Jede Frage wird als neue Abfrage verarbeitet, wobei die im Leerraum definierten Anweisungen verwendet werden, einschließlich aller bereitgestellten Beispiel-SQL- und SQL-Funktionen.

Beispielbenchmarks mit berichteter Genauigkeit zu neun Fragen.

Hinzufügen von Benchmarkfragen

Benchmarkfragen müssen verschiedene Methoden zum Formulieren der häufig gestellten Fragen darstellen, die Ihre Benutzenden stellen. Sie können sie verwenden, um die Antwort von Genie auf Variationen in Frageausdrücken oder verschiedenen Frageformaten zu überprüfen.

Beim Erstellen einer Benchmarkfrage können Sie optional eine SQL-Abfrage einschließen, deren Resultset die richtige Antwort ist. Während der Ausführung der Benchmark wird die Genauigkeit bewertet, indem das Resultset aus Ihrer SQL-Abfrage mit dem Resultset verglichen wird, das von Genie generiert wurde. Sie können auch Unity Catalog SQL-Funktionen als Goldstandardantworten für Benchmarks verwenden.

Um eine Benchmark-Frage hinzuzufügen:

Klicken Sie am oberen Rand des Genie-Raums auf Benchmarks.
Klicken Sie auf "Benchmark hinzufügen".
Geben Sie im Feld Frage eine Benchmarkfrage zum Testen ein.
(Optional) Stellen Sie eine SQL-Abfrage bereit, die die Frage beantwortet. Sie können Eine eigene Abfrage schreiben, indem Sie das Textfeld "SQL-Antwort " eingeben, einschließlich der SQL-Funktionen des Unity-Katalogs. Alternativ können Sie auf "SQL generieren " klicken, damit Genie die SQL-Abfrage für Sie schreibt. Verwenden Sie eine SQL-Anweisung, die die eingegebene Frage genau beantwortet.

Hinweis

Dieser Schritt wird empfohlen. Nur Fragen, die diese Beispiel-SQL-Anweisung enthalten, können automatisch auf Genauigkeit überprüft werden. Alle Fragen, die keine SQL-Antwort enthalten, erfordern eine manuelle Überprüfung der Bewertung. Wenn Sie die Schaltfläche "SQL generieren " verwenden, überprüfen Sie die Anweisung, um sicherzustellen, dass sie die Frage genau beantwortet.
(Optional) Klicken Sie auf Ausführen, um Ihre Abfrage auszuführen und die Ergebnisse anzuzeigen.
Wenn Sie mit der Bearbeitung fertig sind, klicken Sie auf "Benchmark hinzufügen".
Wenn Sie eine Frage nach dem Speichern aktualisieren möchten, klicken Sie auf das Stiftsymbol , um das Dialogfeld Frage aktualisieren zu öffnen.

Verwenden von Benchmarks zum Testen alternativer Frageformulierungen

Bei der Bewertung der Genauigkeit Ihres Genie-Raums ist es wichtig, Tests zu strukturieren, um realistische Szenarien widerzuspiegeln. Benutzende stellen dieselbe Frage möglicherweise auf unterschiedliche Arten. Databricks empfiehlt, mehrere Formulierungen derselben Frage hinzuzufügen und dieselbe Beispiel-SQL in Ihren Benchmarktests zu verwenden, um die Genauigkeit vollständig zu bewerten. Die meisten Genie-Räume sollten zwischen zwei und vier Formulierungen derselben Frage enthalten.

Ausführen von Benchmarkfragen

Benutzer mit mindestens CAN EDIT-Berechtigungen in einem Genie-Raum können jederzeit eine Benchmark-Auswertung ausführen. Sie können alle Benchmark-Fragen ausführen oder eine Teilmenge der zu testende Fragen auswählen.

Für jede Frage interpretiert Genie die Eingabe, generiert SQL und gibt Ergebnisse zurück. Die generierten SQL- und Ergebnisse werden dann mit der in der Benchmarkfrage definierten SQL-Antwort verglichen.

So führen Sie alle Benchmarkfragen aus:

Klicken Sie am oberen Rand des Genie-Raums auf Benchmarks.
Klicken Sie auf Benchmarks ausführen, um die Testausführung zu starten.

Eine Teilmenge von Benchmarkfragen ausführen:

Klicken Sie am oberen Rand des Genie-Raums auf Benchmarks.
Aktivieren Sie die Kontrollkästchen neben den Fragen, die Sie testen möchten.
Klicken Sie auf "Auswahl ausführen", um die Testausführung für die ausgewählten Fragen zu starten.

Sie können auch eine Teilmenge von Fragen aus einem vorherigen Benchmarkergebnis auswählen und diese spezifischen Fragen erneut ausführen, um Verbesserungen zu testen.

Benchmarks laufen weiter, wenn Sie die Seite verlassen. Sie können die Ergebnisse auf der Registerkarte "Auswertung " überprüfen, wenn die Ausführung abgeschlossen ist.

Interpretieren von Bewertungen

Die folgenden Kriterien bestimmen, wie Genies Antworten bewertet werden:

Zustand	Rating
Genie generiert SQL, die genau mit der bereitgestellten SQL-Antwort übereinstimmt.	Gut
Genie generiert ein Resultset, das exakt mit dem Resultset übereinstimmt, das von der SQL-Antwort erzeugt wird.	Gut
Genie generiert ein Resultset mit denselben Daten wie die SQL-Antwort , sortiert aber anders	Gut
Genie generiert ein Resultset mit numerischen Werten, die auf die gleichen vier signifikanten Ziffern runden wie die SQL-Antwort	Gut
Genie generiert SQL, die einen leeren Resultset erzeugt oder einen Fehler zurückgibt.	Schlecht
Genie generiert ein Resultset, das zusätzliche Spalten enthält, verglichen mit dem von der SQL Answer erzeugten Resultset.	Schlecht
Genie generiert ein einzelnes Zellergebnis, das sich von dem von der SQL-Antwort erzeugten Einzelzellenergebnis unterscheidet.	Schlecht

Manuelle Überprüfung erforderlich: Antworten werden mit dieser Bezeichnung gekennzeichnet, wenn Genie die Korrektheit nicht bewerten kann oder wenn von Genie generierte Abfrageergebnisse keine genaue Übereinstimmung mit den Ergebnissen der bereitgestellten SQL-Antwort enthalten. Alle Benchmarkfragen, die keine SQL-Antwort enthalten, müssen manuell überprüft werden.

Aufrufen von Benchmarkbewertungen

Sie können im Laufe der Zeit alle Ihre Benchmarkbewertungen aufrufen, um die Genauigkeit in Ihrem Genie-Space nachzuverfolgen. Wenn Sie die Benchmarks eines Raums öffnen, wird auf der Registerkarte "Auswertungen " eine Zeitstempelliste mit Auswertungen angezeigt. Wenn keine Auswertungsläufe gefunden werden, lesen Sie "Hinzufügen von Benchmarkfragen " oder "Ausführen von Benchmarkfragen".

Bewertungsbildschirm, wie im folgenden Text beschrieben.

Auf der Registerkarte Evaluierungen finden Sie eine Übersicht über Evaluierungen und deren Leistung in den folgenden Kategorien:

Auswertungsname: Ein Zeitstempel, der angibt, wann eine Auswertung ausgeführt wurde. Klicken Sie auf den Zeitstempel, um Details für diese Bewertung anzuzeigen. Ausführungsstatus: Gibt an, ob die Bewertung abgeschlossen, angehalten oder nicht erfolgreich ist. Wenn eine Bewertungsausführung Benchmarkfragen enthält, die keine vordefinierten SQL-Antworten enthalten, wird sie für die Überprüfung in dieser Spalte markiert. Genauigkeit: Eine numerische Bewertung der Genauigkeit aller Benchmarkfragen. Bei Bewertungsausführungen, die eine manuelle Überprüfung erfordern, wird erst nach der Überprüfung dieser Fragen eine Messung der Genauigkeit angezeigt. Erstellt von: Gibt den Namen des Benutzers an, der die Bewertung ausgeführt hat.

Überprüfen einzelner Bewertungen

Sie können einzelne Bewertungen überprüfen, um einen detaillierten Blick auf jede Antwort zu erhalten. Sie können die Bewertung für jede Frage bearbeiten und alle Elemente aktualisieren, die eine manuelle Überprüfung benötigen.

So überprüfen Sie einzelne Bewertungen:

Klicken Sie am oberen Rand des Genie-Raums auf Benchmarks.
Klicken Sie auf den Zeitstempel für eine beliebige Bewertung in der Spalte Name der Bewertung, um eine detaillierte Ansicht dieser Testausführung zu öffnen.
Verwenden Sie die Frageliste auf der linken Seite des Bildschirms, um eine detaillierte Ansicht der einzelnen Fragen anzuzeigen.
Überprüfen und vergleichen Sie die Antwort der Modellausgabe mit der Antwort von Ground Truth.

Für ergebnisse, die als falsch bewertet wurden, wird eine Erklärung angezeigt, die beschreibt, warum das Ergebnis als "Schlecht" bewertet wurde. Dies hilft Ihnen, bestimmte Unterschiede zwischen der generierten Ausgabe und der erwarteten Bodenwahrheit zu verstehen.

Hinweis

Die Ergebnisse dieser Antworten werden in den Auswertungsdetails für eine Woche angezeigt. Nach einer Woche sind die Ergebnisse nicht mehr sichtbar. Die generierte SQL-Anweisung und die SQL-Beispiel-Anweisung bleiben bestehen.
Klicken Sie auf "Ground Truth aktualisieren", um die Antwort als neue Ground Truth für diese Frage zu speichern. Dies ist nützlich, falls keine Referenzdaten existieren oder falls die Antwort besser oder genauer ist als die bestehende Referenzaussage.
Klicken Sie auf der Bezeichnung auf , um die Bewertung zu bearbeiten.

Markieren Sie jedes Ergebnis als Gut oder Schlecht, um eine genaue Bewertung für diese Auswertung zu erhalten.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-13