有时,数据可能包含特殊值。 例如,房主的年龄可能列为五岁。 这些值(通常称为 离群值)可能因数据输入错误而出错,或者它们可能表示异常趋势。 无论哪种方式,异常都可能会影响分析的质量。 突出显示异常工具可帮助你查找这些值并查看它们,以便采取进一步行动。
突出显示异常工具可以处理 Excel 数据表中整个数据范围,或者只能选择几个列。 还可以调整控制数据可变性的阈值,以查找更多或更少的异常。
当该工具完成分析后,它会创建一个新的工作表,其中包含一个摘要报告,显示您分析的各个列中找到的离群值数量。 该工具还突出显示原始数据表中的异常。 由于该工具分析总体趋势,因此可能会发现行中的大多数值都是正常的,并且仅突出显示该行中的一个单元格。 在上面的房主示例中,可能只有 年龄列 被突出显示。
还可以更改摘要报告中的异常阈值。 此值指示特定单元格包含异常值的概率。 因此,如果增加该值,则会将更少的值突出显示为离群值。 相反,当您降低值时,您会看到更多被突出显示的单元格。
使用突出显示异常工具
打开 Excel 表格,然后单击“ 突出显示异常”。
指定要分析的列。
单击 “运行” 。
打开标题为<表名>离群值的工作表,以查看找到的离群值摘要。
若要更改突出显示数,请单击突出显示异常报告的“异常阈值”行中的向上和向下箭头。
要求
如果这些值包含在预测其他行时可能有用的信息,则可以包含不包含错误值的列。 但是,应取消选择包含许多缺失值或零值的列。
由于所有选定的列都用于创建常规模式,因此应避免使用已知信息不佳的输入列,例如:
包含唯一值(如 ID)的列。
包含高百分比错误值的列。
包含许多缺失值的列。
请注意,在某些情况下,包括具有许多缺失值的输入列非常有用。 例如,如果客户通过零售商购买时,地址字段的值始终缺失,则数据挖掘算法可以使用此信息来标识其他类似的客户。 必须逐个逐个确定数据是遗漏还是因为缺失状态有意义。
创建模式时可能不太有用的列。 例如,每行具有相同值的列不会添加任何可用于生成模式的信息。
了解报告中的异常情况概览
单击“ 运行”时,该工具将执行三项作:
基于表中的当前数据创建数据挖掘结构。
使用Microsoft聚类分析算法创建新的数据挖掘模型。
基于模式创建预测查询,以确定工作表中的任何值是否不可行。
异常阈值的初始值始终为 75,这意味着计算的算法有 75% 突出显示数据出错的可能性。 该工具会自动为初始分析过程设置此阈值,但可以更改报告中的值。
突出显示异常工具突出显示原始数据表中可疑的单元格。 颜色加深高亮显示表明该行需要注意。 高亮显示表示该特定单元格中的值被标识为可疑。 如果更改异常的阈值,突出显示的值将相应地更改。
摘要图表显示超出异常阈值的每个列中的单元格数。
相关工具
在清理或查看数据以准备数据挖掘时,还可以尝试使用适用于 Excel 的数据挖掘客户端中的数据浏览功能。 此附加组件提供了更高级的工具,可帮助你找出离群值、重新标记数据或查看数据的分布情况。 有关 Excel 数据挖掘客户端中的数据浏览工具的详细信息,请参阅 “浏览和清理数据”。
突出显示异常工具使用Microsoft聚类分析算法。 聚类分析模型检测共享类似特征的行组。 Excel 数据挖掘客户端提供了一个 “浏览” 窗口,该窗口使用图形和特征配置文件来浏览通过聚类分析创建的数据挖掘模型。 有关如何浏览突出显示异常工具创建的聚类分析模型的信息,请参阅“浏览模型”(Excel 数据挖掘客户端)。
有关Microsoft聚类分析算法的详细信息,请参阅 SQL Server 联机丛书中的主题“Microsoft聚类分析算法”。