此页面旨在帮助 开源 MLflow 用户熟悉在 Databricks 上使用 MLflow。 Databricks 管理的 MLflow 使用相同的 API,但通过与更广泛的 Azure Databricks 平台集成提供其他功能。
Azure Databricks 上的托管 MLflow 的优点
开源 MLflow 提供核心数据模型、API 和 SDK。 这意味着数据和工作负载始终可移植。
在 Databricks 上,托管的 MLflow 增加了:
- 通过与 Databricks 平台、Lakehouse 和 Unity 目录集成实现企业级治理和安全性。 AI 和 ML 数据、工具、代理、模型和其他资产可以在与其余数据和工作负载相同的平台中管理和使用。
- 完全托管的主机托管 在生产就绪的可缩放服务器上
- 与更广泛的马赛克 AI 平台相关的开发和生产集成
有关权益的更多详细信息,请参阅 托管 MLflow 产品页 ,并查看本页的其余部分,了解技术详细信息。
小窍门
数据始终是你的 - 核心数据模型和 API 是完全开源的。 可以在任意位置导出和使用 MLflow 数据。
Databricks 的其他功能
本部分列出了通过与更广泛的 Azure Databricks 平台集成在托管 MLflow 上启用的重要功能。 有关适用于 GenAI 的 MLflow 的所有功能的概述,请参阅 适用于 GenAI 的 MLflow 3 和 开源 GenAI 文档。
企业级治理和安全性
- 使用 Unity 目录进行企业治理:模型、功能表、矢量索引、工具等在 Unity 目录下集中管理。 部署代理时,可以使用 身份验证直通和代表用户身份验证精确控制对代理、数据和工具的访问。
- Lakehouse 数据集成:利用 AI/BI Genie 空间与仪表板以及 Databricks SQL 来分析 MLflow 实验中的日志和跟踪。
-
安全性和管理:MLflow 权限遵循与更广泛的 Databricks 平台相同的治理模式:
- 工作区对象(如试验)遵循 工作区权限。
- Unity 目录对象(如已注册的模型)遵循 Unity 目录特权。
- UI 和 API 身份验证和访问 与 Databricks 平台和 REST API 匹配。
- 审核: 系统表 为托管 MLflow 提供使用情况和审核日志。
生产就绪的服务器上提供完全托管服务
- 完全托管:Azure Databricks 为 MLflow 服务器提供自动更新,旨在实现可伸缩性和生产。 有关详细信息,请参阅 资源限制。
- 受信任的平台:数千客户遍布全球使用托管 MLflow。
用于开发和生产的集成
人工智能和机器学习的开发受到以下集成的优化,例如:
- 笔记本集成:Databricks 笔记本自动连接到 MLflow 服务器,并且可以使用 笔记本试验和工作区试验 来跟踪和共享结果。 Databricks 笔记本支持 MLflow 跟踪的自动记录功能。 对于 GenAI,Databricks 笔记本可以显示一个用于交互式分析的内嵌跟踪用户界面。
- GenAI 人为反馈工具:对于 GenAI 评估,Databricks 提供了一个 “审阅应用”,用于人为反馈 ,其中包括 聊天 UI ,用于氛围检测,以及 专家反馈 UI 用于标记跟踪 。
生产 AI 和 ML 的实现需要集成,例如:
- CI/CD 的基础结构即代码:使用 Databricks 资产捆绑包 和 MLOps Stack 管理 MLflow 试验、模型等。
- 使用 CI/CD 进行模型部署: MLflow 3 部署作业 将 Databricks 工作流与 Unity 目录集成,以自动部署 ML 模型。
- 功能存储集成: Databricks 功能存储 + MLflow 集成 为使用功能表的 ML 模型提供了更简单的部署。
- 生成式AI生产监控:Databricks 提供 生产监控服务,该服务使用 LLM 法官和评分器持续评估您的生产流量的样本。 这由 生产规模跟踪引入 提供支持,其中包括将跟踪存储到 Unity 目录表。
注释
开源遥测集合在 MLflow 3.2.0 中引入,默认在 Databricks 上禁用。 有关更多详细信息,请参阅 MLflow 使用情况跟踪文档。
后续步骤
Databricks 上的 MLflow 入门:
- 创建一个免费试用 Databricks 帐户 以使用 Databricks 管理的 MLflow
- 教程:将开发环境连接到 MLflow
- 入门:适用于 GenAI 的 MLflow 3
- 适用于模型的 MLflow 3 入门
相关参考资料:
- 适用于 GenAI 的开源 MLflow 文档
- Databricks REST API,其中包括 MLflow API
- Databricks SDKs,其中包括 MLflow 操作