数据准备不仅只是数据清理。 请记住,数据准备方式也会影响结果最终解释的方式。 数据准备涉及以下任务:
浏览和检查数据的分布。
清理错误的记录,并选择用于数据挖掘的列。
适当处理空值。
对值进行分箱,或按不同时间段进行聚合。
添加标签以提高结果的可用性。
根据需要转换数据类型或对值进行分类以进行分析。
如果不熟悉数据建模,建议阅读相关主题“ 数据挖掘准备清单”。
数据准备工具
Office 的数据挖掘加载项包括以下用于数据清理和准备的工具:
探索数据
使用 “浏览数据 ”向导执行以下数据准备任务:
预览数据并识别在分析之前必须修复的错误。
收集有助于了解数据平衡和所需清理任务的统计信息。
确定可用于分析的列,并规划数据建模阶段。
检测和处理异常值
离群值向导绘制数据中的值分布图,并帮助删除极端值。 使用 离群值工具 来执行以下数据准备任务:
根据数据中找到的模式确定各个值是否可靠。
审查异常值并通过删除或替换来处理。
将模型限定为特定值范围。 例如,如果你知道某个特定商店有离群值,可以消除该值,这样你就可以得到一个更好地预测其他商店的模型。
Relabel 和 Bin 数据
Relabel 向导按值对数据进行分组,以便可以更改数据上的标签。 使用 Relabel 工具执行以下数据准备任务:
将调查结果中使用的数字代码更改为数字代码的含义的文本说明。
例如,可以将性别 = 1 等数据条目替换为“性别 = 女性”。
通过创建表示数值范围的组,整理数据。
例如,你可能想要将数字的“收入”列替换为“ 收入-中等 ”和 “收入-高”等标签。
将离散值折叠为类别。
例如,如果单个产品太多,无法检测购买中的模式,则可以尝试将产品分配到更广泛的类别。
清理数据
数据清理包含广泛的活动,其中大多数活动都受加载项支持
标识 null 并确定是否应将其更改为实际值或作为
Missing值进行处理。检测缺失值,然后删除它们,或插入适当的值,例如平均值、null 或其他值。
示例数据
示例数据向导提供了两种方法,用于为训练和测试模型创建平衡数据集。
随机采样。 使用此选项可从较大的数据集中提取一组具有代表性的数据,以便在训练或测试中使用。 数据挖掘外接程序使用 分层采样 来确保为每个变量采样获取一组均衡的值。
过度采样。 在数据量少于所需的目标结果时,并且需要给予这些数据更大权重时,请使用此选项。 例如,欺诈可能相对罕见,但你可以过度采样涉及欺诈的案件,以获得足够的数据进行建模。
另请参阅
创建数据挖掘模型
验证模型和使用用于预测的模型(适用于 Excel 的数据挖掘加载项)
部署和缩放挖掘模型(Excel 数据挖掘加载项)