尽管数据挖掘加载项使创建和试验模型变得相当简单有趣,但当需要获得可重复、可作的结果时,必须有足够的时间来制定基本业务要求,以及获取和准备数据。 本部分提供了一个清单,可帮助你规划调查,并描述常见问题。
数据准备清单
我已确定明确定义的输出。
规划如何使用结果。 不同类型的模型具有不同的输出。 时序模型为未来的序列生成值,这些值很容易被理解和进行操作。 其他模型生成复杂集,必须由主题专家分析才能产生最大的价值。
需要什么输出?
是否可以将输出定义为单个列或值或其他可作的结果?
知道模型很有用的条件是什么?
如何使用和解释这些结果?
能否将新输入数据映射到预期结果?
我知道输入数据的含义、数据类型和分布。
花些时间浏览和了解源数据。 评审模型的人员必须了解使用了哪种类型的输入数据,并知道如何解释数据类型和可变性,以及平衡和质量。
你拥有多少数据? 是否有足够的数据用于建模?
不需要大量的,而更小且平衡的可能更好。
数据来自多个来源还是单个来源?
数据是否已处理干净? 是否有更多输入数据可用?
你知道在收到之前数据是如何处理的——数据可能被截断、汇总或转换?
输入数据是否具有可用于训练的一些示例结果?
我了解我们拥有的数据完整性级别和所需的级别。
不良数据可能会影响模型的质量,或防止模型完全生成。 你应该很好地了解数据的分布和含义,以及它是如何进入此状态的。 你需要了解是否可以或适当地通过标记、截断数值数据类型或汇总来简化数据。
数据标签:它们是否清晰正确?
数据类型:它们是否合适,是否已更改?
是否已对错误数据进行排序、清理或丢弃?
是否已验证没有重复项?
如何处理缺失值? 缺失值是否有意义?
是否已验证源,以查看导入过程中是否可能引入任何错误?
输入存储在何处? 它可用多长时间?
是否有数据字典? 你能创建一个吗?
如果合并数据集,是否检查了表示相同数据的多个列?
我知道源数据的存储位置、来源以及处理方式。 如果需要,可以轻松重复此过程。
一次性数据集适用于试验,但如果你想要将模型投入生产,则需要提前考虑如何将清理过程应用于业务数据。 此外,如果你有运营数据,需要知道在获得这些数据之前它可能被修改过的方式;当然,你需要明白它是如何进行舍入或者汇总的。
您想能够重复实验吗?
你将使用哪些工具以支持数据分析的格式准备数据? 是否可以自动执行,或者是否需要有人在 Excel 中查看和清理?
如果要从另一个系统采购数据,能否捕获和跟踪应用的筛选器?
数据处理框架是否可以应用机器学习算法、执行测试和可视化结果?
我们已就预测的所需粒度达成一致,数据已修改为输出这些单位。
在准备数据之前,请确定所需结果的粒度,例如,是否希望按天或每季度进行销售预测? 可以考虑为同一数据设置不同的数据结构,以处理不同级别的摘要。
当前度量单位或时间单位是什么?
要在结果中使用的单元是什么?
是否可以为所有输入数据定义基本单位(例如日/小时/分钟/指令调用) ?
是否要汇总到更高层级的单位?
是否一致地标记类别? 添加或删除类别是否容易?
我们的实验设计是可重复的和可重现的。
考虑用于分析和验证结果和计划捕获数据快照的策略,以确保可以跟踪数据的影响。 如果使用随机种子,结果可能会稍有不同。 这会使比较和验证模型变得困难。
如果对数据进行大量自定义更改,下次要生成模型时会发生什么情况?
是否已定义手动过程或已批准的流程,该流程应该用于处理输入并获取所需的输出?
是否决定为模型使用种子?
我们有领域知识来验证结果,或有权访问可以建议的主题专家。
花时间验证变量、模型和结果。 获取专家的帮助,以评估交互和结果。 但是,不要让假设推翻证据。 对新的和意想不到的发现开放。
域知识是否可用于帮助筛选数据并减少输入干扰?
域专家能否帮助理解解释结果并建议改进?