在生產環境中監視模型是 AI 生命週期中不可或缺的一部分。 資料與取用者行為的變更可能會隨著時間影響您的生成式 AI 應用程式,導致過時的系統對業務成果產生負面影響,並讓組織面臨合規性、經濟和信譽風險。
重要事項
生成式 AI 應用程式的模型監測目前處於公開預覽階段。 這些預覽是在沒有服務等級協定的情況下提供,不建議用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
生成式 AI 應用程式的 Azure Machine Learning 模型監視可讓您更輕鬆地定期監視生產環境中的 LLM 應用程式的安全性和品質,以確保它們能提供最大的商務影響。 監視最終有助於維護您的生成式 AI 應用程式的品質和安全。 功能和整合包括:
- 使用模型資料收集器收集生產資料。
- 負責任 AI 評估計量,例如根據性、連貫性、流暢度、相關性和相似度,這些計量與 Azure Machine Learning 提示流程評估計量互通。
- 能夠根據組織目標設定違規警示,並定期執行監控。
- 取用 Azure Machine Learning 工作室中工作區內豐富的儀表板。
- 與 Azure Machine Learning 提示流程評估計量整合、分析收集的生產資料以提供及時警示,以及一段時間計量的視覺效果。
如需整體模型監測基本概念,請參閱使用 Azure Machine Learning 進行模型監測 (預覽)。 在本文中,您會了解如何監視受控線上端點支援的生成式 AI 應用程式。 您採取的步驟如下︰
評估計量
指標由以下最先進的 GPT 語言模型生成,這些模型配置了特定的評估指令(提示模板),這些指令充當序列到序列任務的評估器模型。 相較於標準生成式 AI 評估計量,這項技術已顯示出強大的經驗結果,並與人類判斷高度相互關聯。 如需了解提示流程評估的詳細資訊,請參閱提交大量測試及評估流程 (預覽)。
支援這些 GPT 模型,並將設定為您的 Azure OpenAI 資源:
- GPT-3.5 Turbo
- GPT-4
- GPT-4-32k
支援下列計量。 如需每個指標的詳細資訊,請參閱 監控評估指標說明和使用案例。
- 基礎性: 評估模型生成的答案與來自輸入源的信息的一致性。
- 相關性:評估模型生成的回應與給定問題相關且直接相關的程度。
- 連貫性: 評估語言模型生成流暢、閱讀自然且類似人類語言的輸出的能力。
- 流暢度: 評估生成式 AI 預測答案的語言能力。 會評估產生的文字遵守文法規則、語法結構,以及詞彙適當使用方式的成效,從而產生語言正確和聽起來很自然的回應。
- 相似性:評估基本事實句子(或文件)與 AI 模型產生的預測句子之間的相似性。
計量設定需求
需要下列輸入 (資料欄名稱) 來測量發電安全性和品質:
- prompt text - 給出的原始提示 (也稱為「輸入」或「問題」)
- completion text — 傳回的 API 呼叫的最終完成 (也稱為「輸出」或「答案」)
- context text - 傳送至 API 呼叫的任何內容資料,以及原始提示。 例如,如果您只想從某些經過認證的資訊來源/網站取得搜尋結果,您可以在評估步驟中定義此結果。 這是可透過提示流程設定的選擇性步驟。
- ground truth text - 使用者定義的文字作為「事實來源」(選用)
根據下表,資料資產中設定的引數會決定您可以產生哪些量度:
| 計量 | Prompt | Completion | Context | 有根據事實 |
|---|---|---|---|---|
| 連貫性 | 必要 | 必要 | - | - |
| 流暢度 | 必要 | 必要 | - | - |
| 根據性 | 必要 | 必要 | 必要 | - |
| 相關性 | 必要 | 必要 | 必要 | - |
| 相似度 | 必要 | 必要 | - | 必要 |
先決條件
- Azure OpenAI 資源:您必須建立具有足夠配額的 Azure OpenAI 資源。 此資源會作為您的評估端點使用。
- 受控識別:建立使用者指派的受控識別 (UAI),並使用使用 CLI v2 連結使用者指派的受控識別中的指導,且具有足夠的角色存取權,將其連結至工作區,如下一個步驟中所述。
-
角色存取: 若要指派具有必要許可權的角色,您必須擁有 資源的擁有者 或 Microsoft.Authorization/roleAssignments/write 許可權。 更新連線和權限可能需要幾分鐘的時間才會生效。 這些額外角色必須指派給您的 UAI:
- 資源:工作區
- 角色:Azure Machine Learning 資料科學家
-
工作區連線: 遵循 本指南,您會使用受控識別,代表用來計算監視計量之 Azure OpenAI 端點的認證。
不要在流程中使用連線之後刪除連線。
- API 版本:2023-03-15-preview
- 提示流程部署:遵循本指南建立提示流程執行階段、執行您的流程,並確定您已使用本文作為指南設定部署。
附註
如果您的計算執行個體位於 VNet 後方,請參閱提示流程中的網路隔離。
建立您的監視
設定基本監視設定
在監視建立精靈中,將 [模型工作類型] 變更為 [提示和完成],如螢幕擷取畫面中的 (A) 所示。
設定資料資產
如果您已使用 「模型資料收集器」,請選取兩個資料資產 (輸入和輸出)。
選取監視訊號
- 在螢幕擷取畫面中設定工作區連線 (A)。
- 輸入 Azure OpenAI 評估工具部署名稱 (B)。
- (選用)聯結您的生產資料輸入和輸出:您的生產模型輸入和輸出會自動由監控服務 (C) 聯結。 您可以視需要自訂此項目,但不需要採取任何動作。 根據預設,聯結資料行是 correlationid。
- (選擇性) 設定計量閾值:可接受的個別執行個體分數固定在 3/5。 您可以在 [1,99] %的範圍內調整可接受的整體 % 通過率。
從提示流程手動輸入資料行名稱 (E)。 標準名稱為 (“prompt” |“完成” |“上下文” |“ground_truth”),但您可以根據您的資料資產進行設定。
(選用)設定取樣率 (F)。
設定通知
確認監視訊號設定
確認監視狀態
取用結果
監視概觀頁面
您的監視概觀提供訊號效能的概觀。 如需詳細資訊,您可以進入訊號詳細資料頁面。
訊號詳細資料頁面
訊號詳細頁面可讓您檢視一段時間的計量 (A) 和檢視分佈的長條圖 (B)。
解決警示
您只能調整訊號閾值。 可接受的分數固定在 3/5,而且只能調整 [可接受整體通過率百分比] 欄位。



