MLflow 提供全面的代理评估和 LLM 评估功能,可帮助你衡量、改进和维护 AI 应用程序的质量。 MLflow 支持整个开发生命周期,从测试到对 LLM、代理、RAG 系统或其他 GenAI 应用程序进行生产监视。
评估 AI 代理和 LLM 比传统的 ML 模型评估更为复杂。 这些应用程序涉及多个组件、多轮次对话和细微差别的质量标准。 定性和定量指标都需要专门的评估方法来准确评估性能。
MLflow 3 的评估和监视组件旨在帮助你以迭代方式优化 GenAI 应用的质量。 基于 MLflow 跟踪进行评估和监视,它在开发、测试和生产阶段提供实时跟踪日志记录。 可以在开发期间使用内置或自定义的 LLM 评委和评分器来评估跟踪,在生产监视期间可以重复使用相同的评委和评分器,确保在整个应用程序生命周期内进行一致的评估。 域专家可以使用集成的 评审应用 提供反馈,以便收集人工反馈,从而生成评估数据以供进一步迭代。
此图显示了此高级迭代工作流。
| 功能 / 特点 | Description |
|---|---|
| 10 分钟演示:评估 GenAI 应用 | 运行使用简单 GenAI 应用程序引入 MLflow 评估的快速演示笔记本。 |
| 教程:评估和改进 GenAI 应用程序 | 使用模拟的 RAG 应用程序逐步完成完整的评估工作流教程。 使用评估数据集和 LLM 评委来评估质量、识别问题并迭代改进应用。 |
| 记分员和 LLM 评委 | 使用 内置的 LLM 法官、 自定义 LLM 法官和 自定义记分器定义应用的质量指标。 对开发和生产使用相同的指标。 |
| 在开发期间评估 | 使用评分器和 LLM 评审在评估数据集上测试您的 GenAI 应用程序。 比较应用版本、跟踪改进和共享结果。 |
| 监控生产环境中的应用 (Beta 版) | 在生产 GenAI 应用程序跟踪中自动运行记分器和 LLM 评委,以持续监视质量。 |
| 收集人工反馈 | 使用评审应用收集专家反馈并生成评估数据集。 |
注释
代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现已通过 mlflow[databricks]>=3.1 SDK 可用。 请参阅 从代理评估迁移到 MLflow 3 以更新 MLflow 2 代理评估代码以使用 MLflow 3。