共用方式為


生成式 AI 應用程式的模型監測 (預覽)

在生產環境中監視模型是 AI 生命週期中不可或缺的一部分。 資料與取用者行為的變更可能會隨著時間影響您的生成式 AI 應用程式,導致過時的系統對業務成果產生負面影響,並讓組織面臨合規性、經濟和信譽風險。

重要事項

生成式 AI 應用程式的模型監測目前處於公開預覽階段。 這些預覽是在沒有服務等級協定的情況下提供,不建議用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

生成式 AI 應用程式的 Azure Machine Learning 模型監視可讓您更輕鬆地定期監視生產環境中的 LLM 應用程式的安全性和品質,以確保它們能提供最大的商務影響。 監視最終有助於維護您的生成式 AI 應用程式的品質和安全。 功能和整合包括:

  • 使用模型資料收集器收集生產資料。
  • 負責任 AI 評估計量,例如根據性、連貫性、流暢度、相關性和相似度,這些計量與 Azure Machine Learning 提示流程評估計量互通。
  • 能夠根據組織目標設定違規警示,並定期執行監控。
  • 取用 Azure Machine Learning 工作室中工作區內豐富的儀表板。
  • 與 Azure Machine Learning 提示流程評估計量整合、分析收集的生產資料以提供及時警示,以及一段時間計量的視覺效果。

如需整體模型監測基本概念,請參閱使用 Azure Machine Learning 進行模型監測 (預覽)。 在本文中,您會了解如何監視受控線上端點支援的生成式 AI 應用程式。 您採取的步驟如下︰

評估計量

指標由以下最先進的 GPT 語言模型生成,這些模型配置了特定的評估指令(提示模板),這些指令充當序列到序列任務的評估器模型。 相較於標準生成式 AI 評估計量,這項技術已顯示出強大的經驗結果,並與人類判斷高度相互關聯。 如需了解提示流程評估的詳細資訊,請參閱提交大量測試及評估流程 (預覽)

支援這些 GPT 模型,並將設定為您的 Azure OpenAI 資源:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

支援下列計量。 如需每個指標的詳細資訊,請參閱 監控評估指標說明和使用案例

  • 基礎性: 評估模型生成的答案與來自輸入源的信息的一致性。
  • 相關性:評估模型生成的回應與給定問題相關且直接相關的程度。
  • 連貫性: 評估語言模型生成流暢、閱讀自然且類似人類語言的輸出的能力。
  • 流暢度: 評估生成式 AI 預測答案的語言能力。 會評估產生的文字遵守文法規則、語法結構,以及詞彙適當使用方式的成效,從而產生語言正確和聽起來很自然的回應。
  • 相似性:評估基本事實句子(或文件)與 AI 模型產生的預測句子之間的相似性。

計量設定需求

需要下列輸入 (資料欄名稱) 來測量發電安全性和品質:

  • prompt text - 給出的原始提示 (也稱為「輸入」或「問題」)
  • completion text — 傳回的 API 呼叫的最終完成 (也稱為「輸出」或「答案」)
  • context text - 傳送至 API 呼叫的任何內容資料,以及原始提示。 例如,如果您只想從某些經過認證的資訊來源/網站取得搜尋結果,您可以在評估步驟中定義此結果。 這是可透過提示流程設定的選擇性步驟。
  • ground truth text - 使用者定義的文字作為「事實來源」(選用)

根據下表,資料資產中設定的引數會決定您可以產生哪些量度:

計量 Prompt Completion Context 有根據事實
連貫性 必要 必要 - -
流暢度 必要 必要 - -
根據性 必要 必要 必要 -
相關性 必要 必要 必要 -
相似度 必要 必要 - 必要

先決條件

  1. Azure OpenAI 資源:您必須建立具有足夠配額的 Azure OpenAI 資源。 此資源會作為您的評估端點使用。
  2. 受控識別:建立使用者指派的受控識別 (UAI),並使用使用 CLI v2 連結使用者指派的受控識別中的指導,且具有足夠的角色存取權,將其連結至工作區,如下一個步驟中所述。
  3. 角色存取: 若要指派具有必要許可權的角色,您必須擁有 資源的擁有者Microsoft.Authorization/roleAssignments/write 許可權。 更新連線和權限可能需要幾分鐘的時間才會生效。 這些額外角色必須指派給您的 UAI:
    • 資源:工作區
    • 角色:Azure Machine Learning 資料科學家
  4. 工作區連線: 遵循 本指南,您會使用受控識別,代表用來計算監視計量之 Azure OpenAI 端點的認證。 不要在流程中使用連線之後刪除連線。
    • API 版本:2023-03-15-preview
  5. 提示流程部署:遵循本指南建立提示流程執行階段、執行您的流程,並確定您已使用本文作為指南設定部署
    • 流量輸入和輸出: 您需要適當地命名流程輸出,並在建立監視器時記住這些資料行名稱。 在本文中,我們會使用下列項目:
      • 輸入 (必要):「提示」
      • 輸出 (必要):「完成」
        • 輸出 (選擇性):「內容」|「有根據事實」
    • 資料收集: 在「部署」( 提示流程部署精靈的步驟 #2)中,必須使用 模型資料收集器啟用「推斷資料收集」切換。
    • 輸出: 在 [輸出] (提示流程部署精靈的步驟 #3) 中,確認您已選取上述符合指標 組態需求的必要輸出 (例如,完成 | 內容 | ground_truth)。

附註

如果您的計算執行個體位於 VNet 後方,請參閱提示流程中的網路隔離

建立您的監視

在 [監視概觀] 頁面中建立監視器: 螢幕擷取畫面,顯示如何為應用程式建立監視器。

設定基本監視設定

在監視建立精靈中,將 [模型工作類型] 變更為 [提示和完成],如螢幕擷取畫面中的 (A) 所示。 顯示如何為生成式 AI 設定基本監視設定的螢幕擷取畫面。

設定資料資產

如果您已使用 「模型資料收集器」,請選取兩個資料資產 (輸入和輸出)。 顯示如何為生成式 AI 設定資料資產的螢幕擷取畫面。

選取監視訊號

顯示監視設定對話方塊上監視訊號組態選項的螢幕擷取畫面。

  1. 在螢幕擷取畫面中設定工作區連線 (A)
    1. 您必須正確設定工作區連線,否則您會看到以下內容: 顯示未設定監視訊號的螢幕擷取畫面。
  2. 輸入 Azure OpenAI 評估工具部署名稱 (B)
  3. (選用)聯結您的生產資料輸入和輸出:您的生產模型輸入和輸出會自動由監控服務 (C) 聯結。 您可以視需要自訂此項目,但不需要採取任何動作。 根據預設,聯結資料行是 correlationid
  4. (選擇性) 設定計量閾值:可接受的個別執行個體分數固定在 3/5。 您可以在 [1,99] %的範圍內調整可接受的整體 % 通過率。
  • 從提示流程手動輸入資料行名稱 (E)。 標準名稱為 (“prompt” |“完成” |“上下文” |“ground_truth”),但您可以根據您的資料資產進行設定。

  • (選用)設定取樣率 (F)。

  • 設定之後,您的訊號將不再顯示警告。 顯示監視訊號組態且沒有警告的螢幕擷取畫面。

設定通知

您不需要執行任何動作。 您可以視需要設定更多收件者。 顯示監視通知組態的螢幕擷取畫面。

確認監視訊號設定

成功設定時,您的監視看起來應該如下所示:顯示已設定監視訊號的螢幕擷取畫面。

確認監視狀態

如果成功設定,您的監視管線作業會顯示下列內容:顯示已成功設定監視訊號的螢幕擷取畫面。

取用結果

監視概觀頁面

您的監視概觀提供訊號效能的概觀。 如需詳細資訊,您可以進入訊號詳細資料頁面。 顯示監視概觀的螢幕擷取畫面。

訊號詳細資料頁面

訊號詳細頁面可讓您檢視一段時間的計量 (A) 和檢視分佈的長條圖 (B)

顯示訊號詳細資料頁面的螢幕擷取畫面。

解決警示

您只能調整訊號閾值。 可接受的分數固定在 3/5,而且只能調整 [可接受整體通過率百分比] 欄位。 調整訊號閾值的螢幕擷取畫面。

後續步驟