你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于:
适用于 Python 的 Azure 机器学习 SDK v1
重要
本文提供有关使用 Azure 机器学习 SDK v1 的信息。 SDK v1 自 2025 年 3 月 31 日起弃用。 对它的支持将于 2026 年 6 月 30 日结束。 可以在该日期之前安装和使用 SDK v1。 使用 SDK v1 的现有工作流将在支持结束日期后继续运行。 但是,当产品发生体系结构更改时,它们可能会面临安全风险或中断性变更。
建议在 2026 年 6 月 30 日之前过渡到 SDK v2。 有关 SDK v2 的详细信息,请参阅 什么是 Azure 机器学习 CLI 和 Python SDK v2? 以及 SDK v2 参考。
可以通过 Azure 机器学习轻松地连接到云中的数据。 它在基础存储服务上提供抽象层,这样你便可以安全地访问和使用数据,而无需编写特定于存储类型的代码。 Azure 机器学习还提供了以下数据功能:
- 与 Pandas 和 Spark 数据帧的互操作性
- 数据世系的版本控制和跟踪
- 数据标记
- 数据偏差监视
数据工作流
若要使用基于云的存储解决方案中的数据,请使用此数据传输工作流。 工作流假定你在 Azure 基于云的存储服务中有 一个 Azure 存储帐户 和数据。
创建 一个 Azure 机器学习数据存储 ,用于将连接信息存储到 Azure 存储。
在该数据存储中创建 一个 Azure 机器学习数据集 ,以指向基础存储中的特定文件或文件。
若要在机器学习试验中使用该数据集,可采用以下方法
将该数据集装载到试验的计算目标以进行模型训练
OR
在自动化机器学习(自动化 ML)试验运行、机器学习管道或 Azure 机器学习设计器等 Azure 机器学习解决方案中直接使用该数据集。
为模型输出数据集创建 数据集监视器 以检测数据偏移。
对于检测到的数据偏移,请更新输入数据集并相应地重新训练模型。
此屏幕截图显示了建议的工作流:
通过数据存储连接到存储
Azure 机器学习数据存储将你的数据存储连接信息安全地托管在 Azure 上,因此你无需将该信息放入脚本中。 有关连接到基础存储服务中的存储帐户和数据访问的详细信息,请参阅 “注册并创建数据存储”。
可以将这些支持的 Azure 基于云的存储服务注册为数据存储:
- Azure Blob 容器
- Azure 文件共享
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL 数据库
- Azure Database for PostgreSQL
- Databricks 文件系统
- Azure Database for MySQL
提示
可以创建使用基于凭据(例如服务主体或共享访问签名 (SAS) 令牌)的身份验证来访问存储服务的数据存储。 对工作区具有“读取者”访问权限的用户可以访问这些凭据。
如果这是一个问题,请参阅 创建使用基于标识的数据访问的数据存储 ,了解有关与存储服务的连接的详细信息。
通过数据集引用存储中的数据
Azure 机器学习数据集不是数据的副本。 “数据集创建”操作本身会创建对其存储服务中的数据的引用及其元数据的副本。
由于数据集是延迟计算的,并且数据仍保留在其现有位置,因此
- 不会产生额外的存储成本
- 不会冒无意中更改原始数据源的风险
- 会提高 ML 工作流性能速度
若要与存储中的数据进行交互,请创建一个数据集,以将数据打包成可供机器学习任务使用的对象。 将该数据集注册到你的工作区可在不同的试验中共享和重用该数据集,而不会造成数据引入复杂性。
可以从本地文件、公共 URL、Azure 开放数据集或通过数据存储操作的 Azure 存储服务创建数据集。
有两种类型的数据集:
FileDataset 引用数据存储或公共 URL 中的单个或多个文件。 如果数据已经过清理并且可用于训练试验,则可以下载或装载 FileDataset 引用的文件到计算目标。
TabularDataset 通过分析提供的文件或文件列表,以表格格式表示数据。 可以将 TabularDataset 加载到 Pandas 或 Spark 数据帧中,方便进一步操作和清理。 有关可从中创建 TabularDataset 的数据格式的完整列表,请访问 TabularDatasetFactory 类。
这些资源提供有关数据集功能的详细信息:
使用数据
使用数据集可以通过与 Azure 机器学习功能的无缝集成来完成机器学习任务。
使用数据标记项目标记数据
在机器学习项目中标记大量数据可能会成为挑战。 涉及计算机视觉组件的项目(如图像分类或对象检测)通常需要数千个图像和对应的标签。
Azure 机器学习提供了一个中心位置,用于创建、管理和监视标记项目。 标记项目有助于协调数据、标签和团队成员,使你能够更有效地管理标记任务。 当前支持的任务包括图像分类、多标签或多类,以及使用边界框的对象标识。
创建图像标记项目或文本标记项目,并输出数据集以用于机器学习试验。
利用数据偏移监视模型性能
在机器学习的上下文中,数据偏移涉及模型输入数据中导致模型性能下降的变化。 这是模型准确度随着时间的推移而下降的主要原因,而数据偏移监视有助于检测模型性能问题。
如需详细信息,请访问创建数据集监视器来了解如何检测数据集内新数据的数据偏移并发出警报。
后续步骤
- 在 Azure 机器学习工作室中或使用 Python SDK 创建数据集
- 试用示例笔记本中的数据集训练示例