Azure Databricks 上的开源与托管 MLflow

此页面旨在帮助 开源 MLflow 用户熟悉在 Databricks 上使用 MLflow。 Databricks 管理的 MLflow 使用相同的 API,但通过与更广泛的 Azure Databricks 平台集成提供其他功能。

Azure Databricks 上的托管 MLflow 的优点

开源 MLflow 提供核心数据模型、API 和 SDK。 这意味着数据和工作负载始终可移植。

在 Databricks 上,托管的 MLflow 增加了:

  • 通过与 Databricks 平台、Lakehouse 和 Unity 目录集成实现企业级治理和安全性。 AI 和 ML 数据、工具、代理、模型和其他资产可以在与其余数据和工作负载相同的平台中管理和使用。
  • 完全托管的主机托管 在生产就绪的可缩放服务器上
  • 与更广泛的马赛克 AI 平台相关的开发和生产集成

有关权益的更多详细信息,请参阅 托管 MLflow 产品页 ,并查看本页的其余部分,了解技术详细信息。

小窍门

数据始终是你的 - 核心数据模型和 API 是完全开源的。 可以在任意位置导出和使用 MLflow 数据。

Databricks 的其他功能

本部分列出了通过与更广泛的 Azure Databricks 平台集成在托管 MLflow 上启用的重要功能。 有关适用于 GenAI 的 MLflow 的所有功能的概述,请参阅 适用于 GenAI 的 MLflow 3开源 GenAI 文档

企业级治理和安全性

  • 使用 Unity 目录进行企业治理:模型、功能表、矢量索引、工具等在 Unity 目录下集中管理。 部署代理时,可以使用 身份验证直通和代表用户身份验证精确控制对代理、数据和工具的访问。
  • Lakehouse 数据集成:利用 AI/BI Genie 空间与仪表板以及 Databricks SQL 来分析 MLflow 实验中的日志和跟踪。
  • 安全性和管理:MLflow 权限遵循与更广泛的 Databricks 平台相同的治理模式:
  • 审核系统表 为托管 MLflow 提供使用情况和审核日志。

生产就绪的服务器上提供完全托管服务

  • 完全托管:Azure Databricks 为 MLflow 服务器提供自动更新,旨在实现可伸缩性和生产。 有关详细信息,请参阅 资源限制
  • 受信任的平台:数千客户遍布全球使用托管 MLflow。

用于开发和生产的集成

人工智能和机器学习的开发受到以下集成的优化,例如:

生产 AI 和 ML 的实现需要集成,例如:

注释

开源遥测集合在 MLflow 3.2.0 中引入,默认在 Databricks 上禁用。 有关更多详细信息,请参阅 MLflow 使用情况跟踪文档

后续步骤

Databricks 上的 MLflow 入门:

相关参考资料: