评估和监视 AI 代理

MLflow 提供全面的代理评估和 LLM 评估功能,可帮助你衡量、改进和维护 AI 应用程序的质量。 MLflow 支持整个开发生命周期,从测试到对 LLM、代理、RAG 系统或其他 GenAI 应用程序进行生产监视。

评估 AI 代理和 LLM 比传统的 ML 模型评估更为复杂。 这些应用程序涉及多个组件、多轮次对话和细微差别的质量标准。 定性和定量指标都需要专门的评估方法来准确评估性能。

MLflow 3 的评估和监视组件旨在帮助你以迭代方式优化 GenAI 应用的质量。 基于 MLflow 跟踪进行评估和监视,它在开发、测试和生产阶段提供实时跟踪日志记录。 可以在开发期间使用内置或自定义的 LLM 评委和评分器来评估跟踪,在生产监视期间可以重复使用相同的评委和评分器,确保在整个应用程序生命周期内进行一致的评估。 域专家可以使用集成的 评审应用 提供反馈,以便收集人工反馈,从而生成评估数据以供进一步迭代。

此图显示了此高级迭代工作流。

MLflow 3 评估和监视概述图

功能 / 特点 Description
10 分钟演示:评估 GenAI 应用 运行使用简单 GenAI 应用程序引入 MLflow 评估的快速演示笔记本。
教程:评估和改进 GenAI 应用程序 使用模拟的 RAG 应用程序逐步完成完整的评估工作流教程。 使用评估数据集和 LLM 评委来评估质量、识别问题并迭代改进应用。
记分员和 LLM 评委 使用 内置的 LLM 法官自定义 LLM 法官自定义记分器定义应用的质量指标。 对开发和生产使用相同的指标。
在开发期间评估 使用评分器和 LLM 评审在评估数据集上测试您的 GenAI 应用程序。 比较应用版本、跟踪改进和共享结果。
监控生产环境中的应用Beta 版) 在生产 GenAI 应用程序跟踪中自动运行记分器和 LLM 评委,以持续监视质量。
收集人工反馈 使用评审应用收集专家反馈并生成评估数据集。

注释

代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现已通过 mlflow[databricks]>=3.1 SDK 可用。 请参阅 从代理评估迁移到 MLflow 3 以更新 MLflow 2 代理评估代码以使用 MLflow 3。