Udostępnij przez


Używanie testów porównawczych w przestrzeni Genie

Na tej stronie wyjaśniono, jak używać testów porównawczych do oceny dokładności przestrzeni Genie.

Przegląd

Testy porównawcze umożliwiają utworzenie zestawu pytań testowych, które można uruchomić w celu oceny dokładności odpowiedzi Genie. Dobrze zaprojektowany zestaw testów porównawczych obejmujących najczęściej zadawane pytania pomaga ocenić precyzję przestrzeni Genie podczas jej doskonalenia. Każde miejsce Genie może zawierać maksymalnie 500 pytań porównawczych.

Pytania benchmarkowe są uruchamiane jako nowe konwersacje. Nie mają tego samego kontekstu co wątkowa rozmowa Genie. Każde pytanie jest przetwarzane jako nowe zapytanie, korzystając z instrukcji zdefiniowanych w przestrzeni, w tym wszystkich podanych przykładowych funkcji SQL i SQL.

Przykładowe testy porównawcze z dokładnością ocenioną na podstawie dziewięciu pytań.

Dodawanie pytań dotyczących testów porównawczych

Pytania porównawcze powinny odzwierciedlać różne sposoby fraz typowych pytań, które zadają użytkownicy. Można ich używać do sprawdzania odpowiedzi Genie na odmiany fraz pytań lub różnych formatów pytań.

Podczas tworzenia pytania porównawczego możesz opcjonalnie dołączyć zapytanie SQL, którego zestaw wyników jest prawidłową odpowiedzią. Podczas przebiegów testów porównawczych dokładność jest oceniana przez porównanie zestawu wyników z zapytania SQL do tego wygenerowanego przez usługę Genie. Możesz również użyć funkcji SQL katalogu Unity jako wzorcowych odpowiedzi na testy porównawcze.

Aby dodać pytanie porównawcze:

  1. W górnej części obszaru Genie kliknij pozycję Testy porównawcze.

  2. Kliknij pozycję Dodaj test porównawczy.

  3. W polu Pytanie wprowadź pytanie porównawcze do przetestowania.

  4. (Opcjonalnie) Podaj zapytanie SQL, które odpowiada na pytanie. Możesz napisać własne zapytanie, wpisując w polu tekstowym SQL Answer, w tym funkcje SQL katalogu Unity. Alternatywnie kliknij pozycję Generuj sql , aby genie zapisało zapytanie SQL. Użyj instrukcji SQL, która dokładnie odpowiada na wprowadzone pytanie.

    Uwaga

    Ten krok jest zalecany. Tylko pytania, które zawierają tę przykładowe instrukcje SQL, można automatycznie ocenić pod kątem dokładności. Wszelkie pytania, które nie zawierają SQL Odpowiedź, wymagają ręcznej oceny. Jeśli używasz przycisku Generuj język SQL , przejrzyj instrukcję , aby upewnić się, że dokładnie odpowiada na to pytanie.

  5. (Opcjonalnie) Kliknij pozycję Uruchom, aby uruchomić zapytanie i wyświetlić wyniki.

  6. Po zakończeniu edytowania kliknij pozycję Dodaj test porównawczy.

  7. Aby zaktualizować pytanie po zapisaniu, kliknij ikonę Ikona Edytuj ołówka, aby otworzyć okno dialogowe Aktualizowanie pytania .

Używanie testów porównawczych do testowania alternatywnych fraz pytań

Podczas oceniania dokładności przestrzeni Genie ważne jest odpowiednie konstruowanie testów, aby odzwierciedlać realistyczne scenariusze. Użytkownicy mogą zadać to samo pytanie na różne sposoby. Usługa Databricks zaleca dodanie wielu fraz tego samego pytania i użycie tego samego przykładowego kodu SQL w testach porównawczych w celu pełnej oceny dokładności. Większość przestrzeni Genie powinna zawierać od dwóch do czterech różnych sformułowań tego samego pytania.

Uruchom pytania testów porównawczych

Użytkownicy z co najmniej uprawnieniami CAN EDIT w obszarze Genie mogą uruchamiać ocenę porównawczą w dowolnym momencie. Możesz uruchomić wszystkie pytania porównawcze lub wybrać podzbiór pytań do przetestowania.

Dla każdego pytania Genie interpretuje dane wejściowe, generuje sql i zwraca wyniki. Wygenerowane dane SQL i wyniki są następnie porównywane z odpowiedzią SQL zdefiniowaną w pytaniu porównawczym.

Aby uruchomić wszystkie pytania porównawcze:

  1. W górnej części obszaru Genie kliknij pozycję Testy porównawcze.
  2. Kliknij pozycję Uruchom testy porównawcze , aby rozpocząć przebieg testu.

Aby uruchomić podzbiór pytań porównawczych:

  1. W górnej części obszaru Genie kliknij pozycję Testy porównawcze.
  2. Zaznacz pola wyboru obok pytań, które chcesz przetestować.
  3. Kliknij Uruchom wybrane, aby rozpocząć przebieg testu na wybranych pytaniach.

Możesz również wybrać podzbiór pytań z poprzedniego wyniku testu porównawczego i ponownie uruchomić te konkretne pytania, aby przetestować ulepszenia.

Testy porównawcze są nadal uruchamiane po opuszczeniu strony. Wyniki można sprawdzić na zakładce Ocena po zakończeniu przebiegu.

Interpretowanie ocen

Następujące kryteria określają sposób oceniania odpowiedzi genie:

Condition Rating
Usługa Genie generuje język SQL, który dokładnie odpowiada podanej odpowiedzi SQL Dobry
Genie generuje zestaw wyników, który dokładnie odpowiada zestawowi wyników wygenerowanego przez odpowiedź SQL Dobry
Genie generuje zestaw wyników z tymi samymi danymi co odpowiedź SQL , ale posortowany inaczej Dobry
Genie generuje zestaw wyników z wartościami liczbowymi zaokrąglonymi do tych samych 4 cyfr znaczących co odpowiedź SQL Dobry
Usługa Genie generuje kod SQL, który generuje pusty zestaw wyników lub zwraca błąd Zły
Genie generuje zestaw wyników zawierający dodatkowe kolumny w porównaniu z zestawem wyników generowanym przez odpowiedź SQL Zły
Genie generuje pojedynczy wynik komórki, który różni się od pojedynczego wyniku komórki wygenerowanego przez odpowiedź SQL Zły

Wymagana recenzja ręczna: odpowiedzi są oznaczone tą etykietą, gdy usługa Genie nie może ocenić poprawności lub gdy wyniki zapytania wygenerowane przez genie nie zawierają dokładnego dopasowania do wyników z podanej odpowiedzi SQL. Wszelkie pytania porównawcze, które nie zawierają odpowiedzi SQL, należy przejrzeć ręcznie.

Oceny testów porównawczych dostępu

Możesz uzyskać dostęp do wszystkich ocen porównawczych, aby śledzić dokładność w przestrzeni Genie na przestrzeni czasu. Po otwarciu testów porównawczych obszaru, na karcie Oceny pojawi się oznakowana czasem lista przebiegów ocen. Jeśli nie znaleziono żadnych przebiegów ocen, zobacz Dodaj pytania testowe lub Uruchom pytania testowe.

Ekran Oceny zgodnie z opisem w poniższym tekście.

Zakładka Oceny zawiera przegląd ocen oraz ich wyników zgłoszonych w następujących kategoriach:

Nazwa oceny: sygnatura czasowa wskazująca, kiedy wystąpił przebieg oceny. Kliknij znacznik czasu, aby wyświetlić szczegółowe informacje dotyczące tej oceny. Stan wykonania: wskazuje, czy ocena została ukończona, wstrzymana lub nieudana. Jeśli przebieg oceny zawiera pytania porównawcze, które nie mają wstępnie zdefiniowanych odpowiedzi SQL, zostanie on oznaczony do przeglądu w tej kolumnie. Dokładność: ocena liczbowa dokładności we wszystkich pytaniach porównawczych. W przypadku przebiegów oceny, które wymagają ręcznego przeglądu, miara dokładności jest wyświetlana dopiero po przejrzeniu tych pytań. Utworzone przez: wskazuje nazwę użytkownika, który uruchomił ocenę.

Przeglądanie indywidualnych ocen

Poszczególne oceny można przejrzeć, aby uzyskać szczegółowe informacje na temat każdej odpowiedzi. Możesz edytować ocenę pod kątem dowolnego pytania i aktualizować wszystkie elementy, które wymagają ręcznego przeglądu.

Aby przejrzeć poszczególne oceny:

  1. W górnej części obszaru Genie kliknij pozycję Testy porównawcze.

  2. Kliknij znacznik czasu dla dowolnej oceny w kolumnie Nazwa oceny, aby otworzyć szczegółowy widok tego przebiegu testu.

    Ekran przedstawiający wyniki pojedynczego przebiegu oceny. Wszystkie pytania są wyświetlane po lewej stronie. Jeśli ma to zastosowanie, poszczególne pytania są wyświetlane po prawej stronie z danymi wyjściowymi modelu i danymi wyjściowymi podstawy prawdy.

  3. Użyj listy pytań po lewej stronie ekranu, aby wyświetlić szczegółowy widok każdego pytania.

  4. Przejrzyj i porównaj odpowiedź modelu z odpowiedzią danych referencyjnych.

    W przypadku wyników ocenianych jako nieprawidłowe wyjaśnienie pojawia się opisujące, dlaczego wynik został oceniony jako Nieprawidłowy. Pomaga to zrozumieć konkretne różnice między wygenerowanym wyjściem a oczekiwanym stanem rzeczy.

    Uwaga

    Wyniki tych odpowiedzi są wyświetlane w szczegółach oceny przez jeden tydzień. Po upływie jednego tygodnia wyniki nie są już widoczne. Wygenerowana instrukcja SQL i przykładowa instrukcja SQL pozostają.

  5. Kliknij przycisk Zaktualizuj dane wzorcowe, aby zapisać odpowiedź jako nowe dane wzorcowe dla tego pytania. Jest to przydatne, jeśli nie istnieje prawda naziemna lub jeśli odpowiedź jest lepsza lub dokładniejsza niż istniejące podstawowe stwierdzenie prawdy.

  6. Ikona Edytuj Kliknij etykietę, aby edytować ocenę.

    Oznacz każdy wynik jako dobry lub zły , aby uzyskać dokładny wynik dla tej oceny.