在 Genie 空間中應用性能基準

此頁面說明如何使用基準來評估 Genie 空間的正確性。

概述

基準檢驗可讓您建立一組測試問題，您可以執行以評估 Genie 的整體回應精確度。設計完善的一組基準，內容涵蓋最常被問到的使用者問題，可協助您在精簡 Genie 空間時評估其正確性。每個 Genie 空間最多可包含 500 個基準問題。

基準問題會作為新的對話進行。它們不具備與線上 Genie 對話相同的上下文。每個問題都會使用空間中定義的指示來處理為新的查詢，包括任何提供的範例 SQL 和 SQL 函式。

在九個問題上報告精確度的基準範例。

新增基準問題

基準問題應該反映使用者所提問常見問題的不同語法方式。您可以使用它們來檢查 Genie 對問題片語或不同問題格式變化的回應。

建立基準問題時，您可以選擇性地包括其結果集為正確答案的 SQL 查詢。在基準執行期間，會藉由比較 SQL 查詢的結果集與 Genie 所產生的結果集以評估正確性。您也可以使用 Unity 目錄 SQL 函式作為基準測試的黃金標準答案。

若要新增基準檢驗問題：

在 Genie 頁面頂端附近，按一下 基準測試。
按一下 新增基準。
在問題欄位中，輸入要測試的基準問題。
（選用）提供回答問題的 SQL 查詢。您可以在 SQL 答案 文字欄位中輸入內容，包括 Unity Catalog SQL 函式，以撰寫自己的查詢。或者，按一下 [產生 SQL] ，讓 Genie 為您撰寫 SQL 查詢。使用準確回答您輸入的問題的 SQL 陳述式。

注意

此步驟是建議步驟。只有包括此範例 SQL 陳述式的問題才會自動評估正確性。不包括 SQL 答案 的任何問題都需要手動檢閱才能評分。如果您使用 [產生 SQL ] 按鈕，請檢閱陳述式，以確保它正確回答問題。
（選擇性）單擊執行以執行查詢並檢視結果。
當您完成編輯時，請按一下新增基準。
若要在儲存後更新問題，請按一下鉛筆圖示以開啟更新問題對話方塊。

使用基準以測試替代問題語法

在評估你的 Genie 空間的正確性時，重要的是安排測試來反映現實情境。使用者可能會以不同方式詢問相同的問題。 Databricks 建議在相同問題中加入的多個種語法，並在基準測試中使用相同的範例 SQL，以完整評估正確性。大多數精靈空間應包含同一問題的兩到四個短語。

執行基準測試問題

在 Genie 空間中至少具有 CAN EDIT 權限的使用者可以隨時執行基準測試評估。您可以執行所有基準問題，或選取要測試的問題子集。

對於每個問題，Genie 會解釋輸入、產生 SQL 並傳回結果。然後，將產生的 SQL 和結果與基準測試問題中定義的 SQL 答案 進行比較。

若要執行所有基準問題：

在 Genie 頁面頂端附近，按一下 基準測試。
按一下執行基準以開始測試回合。

若要執行基準測試問題的子集：

在 Genie 頁面頂端附近，按一下 基準測試。
請勾選您要測試的問題旁邊的核取方塊。
按一下 [執行選取項目] 以開始對所選問題進行測試執行。

您也可以從先前的基準測試結果中選取問題子集，並重新執行這些特定問題以測試改進。

當您離開頁面時，基準測試會繼續執行。執行完成後，您可以在評估標籤上檢查結果。

解譯評分

以下標準決定了 Genie 回應的評分方式：

狀況	Rating
Genie 生成與提供的 SQL 答案完全匹配的 SQL	好
Genie 會產生與 SQL Answer 產生的結果集完全相符的結果集	好
Genie 會產生一個結果集，其資料與 SQL 答案相同，但排序方式不同	好
Genie 產生一個結果集，其數值四捨五入為與 SQL 答案相同的 4 位有效數字	好
Genie 產生產生空結果集或傳回錯誤的 SQL	壞
Genie 會產生一個結果集，其中包含與 SQL 答案產生的結果集相比的額外資料行	壞
Genie 會產生與 SQL 答案產生的單一儲存格結果不同的單一儲存格結果	壞

需要手動檢閱：當 Genie 無法評估正確性或 Genie 產生的查詢結果未包含與所提供 SQL 回應的結果完全相符時，回應會標示為此標籤。任何不包含 SQL 答案的基準問題都必須手動檢閱。

存取基準評估

您可以存取所有基準評估，藉此在 Genie 空間中隨時間追蹤正確性。當您開啟空間的 效能評定時，評估回合的時間戳清單會出現在 [ 評估] 索引 標籤中。如果找不到評估回合，請參閱新增基準檢驗問題或執行基準檢驗問題。

評估畫面，如下列文字所述。

[評估] 標籤頁顯示評估的概觀及其在下列類別中的表現：

評估名稱：指出評估執行發生時間的時間戳記。按一下時間戳記以查看該評估的詳細資料。 執行狀態：指出評估是否已完成、暫停或不成功。如果評估回合包括沒有預先定義 SQL 答案的基準問題，則會在此資料欄中標示為檢閱。 正確性：所有基準問題當中的正確性數值評估。針對需要手動檢閱的評估回合，正確性度量值只會在已經檢閱這些問題之後出現。 建立者：指出執行評估的使用者名稱。

查看個人評估

您可以檢閱個別評估，詳細查看每個回覆。您可以編輯任何問題的評定，並且更新需要手動檢閱的任何項目。

若要檢閱個別評估：

在 Genie 頁面頂端附近，按一下 基準測試。
在評估名稱資料欄中按一下任何評估的時間戳記，開啟該測試回合的詳細檢視。
使用螢幕左側的問題清單查看每個問題的詳細視圖。
檢閱並比較模型輸出回應與基準真相回應。

對於評等為不正確的結果，會出現一個說明，說明結果被評為 「不良」的原因。這可協助您瞭解產生的輸出與預期的基本事實之間的特定差異。

注意

這些回應的結果會顯示在評估詳細資料中，為期一週。一週之後就不會再顯示結果。產生的 SQL 陳述式和範例 SQL 陳述式會維持不變。
按一下 [更新基本事實 ] ，將回應儲存為此問題的新 基本事實 。如果不存在基本事實，或者回應比現有的基本事實陳述更好或更準確，這很有用。
按一下標籤上的以編輯評定。

將每個結果標示為良好或不良，以取得此評估的準確分數。

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-10-23