浏览和清理数据

数据准备不仅只是数据清理。 请记住,数据准备方式也会影响结果最终解释的方式。 数据准备涉及以下任务:

  • 浏览和检查数据的分布。

  • 清理错误的记录,并选择用于数据挖掘的列。

  • 适当处理空值。

  • 对值进行分箱,或按不同时间段进行聚合。

  • 添加标签以提高结果的可用性。

  • 根据需要转换数据类型或对值进行分类以进行分析。

如果不熟悉数据建模,建议阅读相关主题“ 数据挖掘准备清单”。

数据准备工具

Office 的数据挖掘加载项包括以下用于数据清理和准备的工具:

探索数据

使用 “浏览数据 ”向导执行以下数据准备任务:

  • 预览数据并识别在分析之前必须修复的错误。

  • 收集有助于了解数据平衡和所需清理任务的统计信息。

  • 确定可用于分析的列,并规划数据建模阶段。

浏览数据(SQL Server 数据挖掘加载项)。

检测和处理异常值

离群值向导绘制数据中的值分布图,并帮助删除极端值。 使用 离群值工具 来执行以下数据准备任务:

  • 根据数据中找到的模式确定各个值是否可靠。

  • 审查异常值并通过删除或替换来处理。

  • 将模型限定为特定值范围。 例如,如果你知道某个特定商店有离群值,可以消除该值,这样你就可以得到一个更好地预测其他商店的模型。

离群值(SQL Server 数据挖掘加载项)。

Relabel 和 Bin 数据

Relabel 向导按值对数据进行分组,以便可以更改数据上的标签。 使用 Relabel 工具执行以下数据准备任务:

  • 将调查结果中使用的数字代码更改为数字代码的含义的文本说明。

    例如,可以将性别 = 1 等数据条目替换为“性别 = 女性”。

  • 通过创建表示数值范围的组,整理数据。

    例如,你可能想要将数字的“收入”列替换为“ 收入-中等 ”和 “收入-高”等标签。

  • 将离散值折叠为类别。

    例如,如果单个产品太多,无法检测购买中的模式,则可以尝试将产品分配到更广泛的类别。

Relabel (SQL Server 数据挖掘加载项)

清理数据

数据清理包含广泛的活动,其中大多数活动都受加载项支持

  • 标识 null 并确定是否应将其更改为实际值或作为 Missing 值进行处理。

  • 检测缺失值,然后删除它们,或插入适当的值,例如平均值、null 或其他值。

浏览数据(SQL Server 数据挖掘加载项)

Relabel (SQL Server 数据挖掘加载项)

从示例填充

示例数据

示例数据向导提供了两种方法,用于为训练和测试模型创建平衡数据集。

  • 随机采样。 使用此选项可从较大的数据集中提取一组具有代表性的数据,以便在训练或测试中使用。 数据挖掘外接程序使用 分层采样 来确保为每个变量采样获取一组均衡的值。

  • 过度采样。 在数据量少于所需的目标结果时,并且需要给予这些数据更大权重时,请使用此选项。 例如,欺诈可能相对罕见,但你可以过度采样涉及欺诈的案件,以获得足够的数据进行建模。

示例数据(SQL Server 数据挖掘加载项)。

另请参阅

创建数据挖掘模型
验证模型和使用用于预测的模型(适用于 Excel 的数据挖掘加载项)
部署和缩放挖掘模型(Excel 数据挖掘加载项)