此頁面說明如何使用基準來評估 Genie 空間的正確性。
概述
基準檢驗可讓您建立一組測試問題,您可以執行以評估 Genie 的整體回應精確度。 設計完善的一組基準,內容涵蓋最常被問到的使用者問題,可協助您在精簡 Genie 空間時評估其正確性。 每個 Genie 空間最多可包含 500 個基準問題。
基準問題會作為新的對話進行。 它們不具備與線上 Genie 對話相同的上下文。 每個問題都會使用空間中定義的指示來處理為新的查詢,包括任何提供的範例 SQL 和 SQL 函式。
新增基準問題
基準問題應該反映使用者所提問常見問題的不同語法方式。 您可以使用它們來檢查 Genie 對問題片語或不同問題格式變化的回應。
建立基準問題時,您可以選擇性地包括其結果集為正確答案的 SQL 查詢。 在基準執行期間,會藉由比較 SQL 查詢的結果集與 Genie 所產生的結果集以評估正確性。 您也可以使用 Unity 目錄 SQL 函式作為基準測試的黃金標準答案。
若要新增基準檢驗問題:
在 Genie 頁面頂端附近,按一下 基準測試。
按一下 新增基準。
在問題欄位中,輸入要測試的基準問題。
(選用)提供回答問題的 SQL 查詢。 您可以在 SQL 答案 文字欄位中輸入內容,包括 Unity Catalog SQL 函式,以撰寫自己的查詢。 或者,按一下 [產生 SQL] ,讓 Genie 為您撰寫 SQL 查詢。 使用準確回答您輸入的問題的 SQL 陳述式。
注意
此步驟是建議步驟。 只有包括此範例 SQL 陳述式的問題才會自動評估正確性。 不包括 SQL 答案 的任何問題都需要手動檢閱才能評分。 如果您使用 [產生 SQL ] 按鈕,請檢閱陳述式,以確保它正確回答問題。
(選擇性)單擊 執行 以執行查詢並檢視結果。
當您完成編輯時,請按一下新增基準。
若要在儲存後更新問題,請按一下
鉛筆圖示以開啟更新問題對話方塊。
使用基準以測試替代問題語法
在評估你的 Genie 空間的正確性時,重要的是安排測試來反映現實情境。 使用者可能會以不同方式詢問相同的問題。 Databricks 建議在相同問題中加入的多個種語法,並在基準測試中使用相同的範例 SQL,以完整評估正確性。 大多數精靈空間應包含同一問題的兩到四個短語。
執行基準測試問題
在 Genie 空間中至少具有 CAN EDIT 權限的使用者可以隨時執行基準測試評估。 您可以執行所有基準問題,或選取要測試的問題子集。
對於每個問題,Genie 會解釋輸入、產生 SQL 並傳回結果。 然後,將產生的 SQL 和結果與基準測試問題中定義的 SQL 答案 進行比較。
若要執行所有基準問題:
- 在 Genie 頁面頂端附近,按一下 基準測試。
- 按一下執行基準以開始測試回合。
若要執行基準測試問題的子集:
- 在 Genie 頁面頂端附近,按一下 基準測試。
- 請勾選您要測試的問題旁邊的核取方塊。
- 按一下 [執行選取項目] 以開始對所選問題進行測試執行。
您也可以從先前的基準測試結果中選取問題子集,並重新執行這些特定問題以測試改進。
當您離開頁面時,基準測試會繼續執行。 執行完成後,您可以在 評估 標籤上檢查結果。
解譯評分
以下標準決定了 Genie 回應的評分方式:
| 狀況 | Rating |
|---|---|
| Genie 生成與提供的 SQL 答案完全匹配的 SQL | 好 |
| Genie 會產生與 SQL Answer 產生的結果集完全相符的結果集 | 好 |
| Genie 會產生一個結果集,其資料與 SQL 答案 相同,但排序方式不同 | 好 |
| Genie 產生一個結果集,其數值四捨五入為與 SQL 答案相同的 4 位有效數字 | 好 |
| Genie 產生產生空結果集或傳回錯誤的 SQL | 壞 |
| Genie 會產生一個結果集,其中包含與 SQL 答案產生的結果集相比的額外資料行 | 壞 |
| Genie 會產生與 SQL 答案產生的單一儲存格結果不同的單一儲存格結果 | 壞 |
需要手動檢閱:當 Genie 無法評估正確性或 Genie 產生的查詢結果未包含與所提供 SQL 回應的結果完全相符時,回應會標示為此標籤。 任何不包含 SQL 答案的基準問題都必須手動檢閱。
存取基準評估
您可以存取所有基準評估,藉此在 Genie 空間中隨時間追蹤正確性。 當您開啟空間的 效能評定時,評估回合的時間戳清單會出現在 [ 評估] 索引 標籤中。如果找不到評估回合,請參閱 新增基準檢驗問題 或 執行基準檢驗問題。
[評估] 標籤頁顯示評估的概觀及其在下列類別中的表現:
評估名稱:指出評估執行發生時間的時間戳記。 按一下時間戳記以查看該評估的詳細資料。 執行狀態:指出評估是否已完成、暫停或不成功。 如果評估回合包括沒有預先定義 SQL 答案的基準問題,則會在此資料欄中標示為檢閱。 正確性:所有基準問題當中的正確性數值評估。 針對需要手動檢閱的評估回合,正確性度量值只會在已經檢閱這些問題之後出現。 建立者:指出執行評估的使用者名稱。
查看個人評估
您可以檢閱個別評估,詳細查看每個回覆。 您可以編輯任何問題的評定,並且更新需要手動檢閱的任何項目。
若要檢閱個別評估:
在 Genie 頁面頂端附近,按一下 基準測試。
在評估名稱資料欄中按一下任何評估的時間戳記,開啟該測試回合的詳細檢視。
使用螢幕左側的問題清單查看每個問題的詳細視圖。
檢閱並比較模型輸出回應與基準真相回應。
對於評等為不正確的結果,會出現一個說明,說明結果被評為 「不良」的原因。 這可協助您瞭解產生的輸出與預期的基本事實之間的特定差異。
注意
這些回應的結果會顯示在評估詳細資料中,為期一週。 一週之後就不會再顯示結果。 產生的 SQL 陳述式和範例 SQL 陳述式會維持不變。
按一下 [更新基本事實 ] ,將回應儲存為此問題的新 基本事實 。 如果不存在基本事實,或者回應比現有的基本事實陳述更好或更準確,這很有用。
按一下標籤上的
以編輯評定。將每個結果標示為良好或不良,以取得此評估的準確分數。