“ 从示例填充 ”工具可帮助你基于现有值生成新的数据列。
例如,假设你的数据包含 “购买金额 ”列、 “订单数量 ”列和基于其他列的一些公式的 Premier Customer 列。 如果 Premier Customer 列包含许多空白行,则可以使用 “购买金额 ”和 “订单数量 ”列作为输入来推断缺失值。 该工具将分析数据中的现有模式以及输入的示例,并预测要分配给每个客户的类别。
如果对结果不满意,可以通过提供更多示例来优化结果。
使用示例工具中的填充
在 “分析” 功能区中,单击“ 从示例填充”。
该工具将根据数据分析自动选取要填充的列,你可以接受或替代此建议。
为新数据创建列,并键入要预测的数据的示例。 请确保要预测的每个值至少有一个示例。 如果要在现有列中填充数据,请选择缺少值的列。
(可选)单击“ 选择要用于分析的列”。 在“ 高级列选择 ”对话框中,指定填充缺失数据时最有可能有用的列。
例如,如果你从经验中知道,一列与缺少值的列之间存在因果关系,则可以取消选择其他列以获得更好的结果。
单击 “确定” 。
单击 “运行” 。
分析完成后,该工具将创建一个新的 模式 工作表,其中包含分析结果。 报告列出了找到的规则或关键影响因素,并显示每个规则的概率。
该工具还会自动将包含新值的列添加到原始数据表。 可以查看这些值,并将其与原始值进行比较。
要求
只能处理表格列中的数据。 如果要填充的序列存储在行中,则可以使用 Excel 中的 Paste、Transpose 函数将数据更改为列格式。
了解模式报表
运行“ 从示例填充 ”工具时,将创建一个报表,该报表提供有关检测到的模式的详细信息。 这些模式用于推断新数据值。
模式报告显示预测的每个值的关键影响因素。 每个影响因素或规则都描述为列的组合、该列中的值以及规则对预测的相对影响。
例如,如果您尝试填写显示订单运输距离的工作表,您可能会合情合理地预期目的地对运输距离的值产生显著影响。 在这种情况下,报表可能包含以下行:
| 列 | 价值 | 有利于 | 相对影响 |
|---|---|---|---|
| 省代码 | 血型 | >500 公里 | 80% |
这意味着 StateProvinceCode 列中的值 AB 强预测航运距离为 >500 公里。
通常,预测基于比此示例更为复杂的模式,并且报表可能包含每个预测的很多行规则。 所有规则的效果合并为派生预测值。
注释
相对影响 显示为阴影条。 条形图越长,此规则预测填充值的概率就越大。
该工具还会向原始数据表添加新列,名为<列名称> 扩展。
如果原始数据列包含一个值,该值将复制到新列中。 但是,如果原始列包含空白单元格,则新列包含向导预测的值。
相关工具和信息
还可以使用适用于 Excel 的数据挖掘客户端中提供的 “浏览数据 ”向导来检查 Excel 列中值分布情况。 有关详细信息,请参阅 “浏览和清理数据”。