[本文章是發行前版本文件,且隨時可能變更。]
在 Copilot Studio 中,你可以 建立 一套測試案例來評估代理的效能。 測試案例可讓您模擬客服專員的真實場景,因此您可以根據客服專員可以存取的資訊來衡量客服專員被問到的問題的答案的準確性、相關性和品質。 透過測試 集的結果,您可以優化客服人員的行為,並驗證您的客服人員是否符合您的業務與品質要求。
這很重要
本文包含 Microsoft Copilot Studio 預覽版文件,內容可能有所變更。
預覽功能不適用於生產環境,而且功能可能受到限制。 這些功能是在正式發行前先行推出,讓您能夠搶先體驗並提供意見反應。
如果您要建置生產就緒 Agent,請參閱 Microsoft Copilot Studio 概觀。
測試方法
在建立測試集時,你可以選擇不同的測試方法來評估代理人的回應: 文字匹配度、 相似度與 品質。 每種測試方法都有其本身的優勢,適合不同類型的評估。
文字比對測試方法
文字比對測試方法會將客服專員的回應與您在測試集中定義的預期回應進行比較。 有兩類匹配測試:
完全匹配檢查 客服專員的答案是否與測試中的預期響應完全匹配:逐個字符,逐個單詞。 如果是一樣的,它就通過了。 若有什麼不同,則測試失敗。 完全相符比對適用於簡短、精確的解答 (例如數字、代碼或固定字詞)。 這不適合可以用多種正確方式表述的解答。
部分匹配 檢查代理人的回答是否包含你定義的預期回應中的某些詞彙或片語。 若是如此,則通過。 如果沒有,它就會失敗。 部分相符比對適用於解答可以用不同正確方式表述,但關鍵字詞或構想仍需包含於回覆的情況。
相似性測試方法
相似性測試方法會比較客服專員回應與測試集中定義的預期回應的相似性。 當解答可以用不同的正確方式表述,但整體含義或意圖仍需表達出來時,此方法很有用。
它使用餘弦相似度度量來評估客服專員的回答與預期回應的措辭和含義的相似程度,並確定分數。 分數範圍介於 0 到 1 之間,其中 1 表示解答高度相符,0 表示不相符。 您可以設定通過分數閾值來確定解答的通過分數。
品質測試方法
品質測試方法可協助您判斷 Agent 的回覆否符合您的標準。 此方法確保結果既可靠又易於解釋。
這些方法使用大型語言模型 (LLM) 來評估代理回答用戶問題的效率。 這在沒有預期的確切解答時特別有用,並提供靈活且可調整的方式,以根據擷取文件和交談流程來評估回覆。
品質測試方法包括兩種測試方法:
一般品質評估 Agent 回覆。 它使用這些關鍵標準,並以一致的提示來指導評分:
相關性:Agent 的回覆在多大程度上解答了問題。 例如,客服專員的回應是否停留在主題上並直接回答問題?
契合性:Agent 的回覆在多大程度上根據提供的內容進行解答。 例如,Agent 的回覆是否參考或依賴內容中提供的資訊 (而不是引入不相關或不支援的資訊)?
完整性:Agent 的回覆在多大程度上提供了所有必要的資訊。 例如,Agent 的回覆是否涵蓋問題的所有層面並提供充足的詳細資料?
回避性:Agent 是否已嘗試解答問題。
要被視為高品質,回應必須符合所有這些關鍵標準。 若未達成某項標準,該回應將被標記為需改進。 這種評分方法確保只有完整且充分支援的回覆才能獲得最高分。 相比之下,不完整或缺乏支持證據的答案獲得較低的分數。
比較含義評估 Agent 的解答在多大程度上反映了預期回覆的本意。 它不專注於精確措辭,而是使用意圖相似度,也就是比較詞語背後的想法與意義,來判斷回應是否符合預期。
您可以設定通過分數閾值來確定解答的通過分數。 預設及格分數為50分。 當解答可以用不同的正確方式表述,但整體含義或意圖仍需表達出來時,比較含義測試方法很有用。
閾值和通過率
測試案例的成功取決於您選取的測試方法,以及您設定的及格分數臨界值。
除了完全相符比對以外,每種測試方法都會根據一組評估準則產生數值分數,這些評估準則反映 Agent 解答符合該準則的程度。 閾值是區分通過和失敗的界限分數。 您可以設定相似性通過分數並比較含義測試案例。
完全相符比對是嚴格的測試方法,不會產生數值分數;解答必須完全相符才算通過。 您可以選擇測試案例的閾值,決定評估的嚴格程度或寬鬆程度。 每種測試方法對 Agent 解答的評估方式都不同,因此選擇最適合評估準則的方法非常重要。