這很重要
Databricks 建議使用 MLflow 3 來評估和監視生成式 AI 應用程式。 本頁說明 MLflow 2 代理程式評估。
- 關於 MLflow 3 的評估與監控介紹,請參見「評估與監控 AI 代理」。
- 如需移轉至 MLflow 3 的相關資訊,請參閱 從代理程式評估移轉至 MLflow 3。
- 關於此主題的 MLflow 3 資訊,請參見 「評估與監控 AI 代理」。
下列筆記文件示範如何使用 Agent Evaluation 的專屬 LLM 模型、自訂化指標和來自領域專家的標籤來評估生成型人工智慧應用程式。 其示範如下:
- 如何將生產記錄(追蹤)載入評估數據集。
- 如何執行評估並執行根本原因分析。
- 如何建立自定義計量來自動偵測質量問題。
- 如何傳送中小企業的生產記錄來標記和演進評估數據集。
若要讓您的代理程式準備好進行生產前,請參閱 馬賽克 AI 代理程式示範筆記本。 如需一般資訊,請參閱 馬賽克 AI 代理程式評估 (MLflow 2) 。