离群值 (SQL Server 数据挖掘加载项)

数据挖掘功能区中的离群值向导

离群值表示由于以下任一原因而有问题的数据值:

  • 值超出预期范围。

  • 数据可能输入不正确。

  • 值缺失。

  • 数据由空格或其他 null 字符串组成。

  • 值是准确的,但在分布之外,它可能会显著影响模型。

Excel 数据挖掘客户端可帮助你检测此数据,然后更新值或取消这些值。 例如,可以将离群值替换为算术平均值,也可以删除包含可能错误的值的行。

处理离群值

“删除离群值”向导提供多个工具来适当处理离群值:

  • 首先,可以浏览数据,以便更好地了解值的分布以及离群值与其他数据之间的关系。

    例如,可以使用 “浏览数据” 任务来查看和修复这些值。 “删除离群值”向导还显示折线图或条形图,以帮助了解所有值的分布情况。

  • 接下来,您可以使用 离群值 向导来删除或更改离群值。 使用的方法取决于值是离散的还是连续的。

    向导在条形图中显示离散值,其中每个条形图表示特定值,条形图的高度指示每个值的事例数。 通过在图表上滑动阈值控制,可以去除表示极端值或潜在不良值组的条形图。

  • 向导在条形图或折线图上显示连续值。 在折线图上,该值在 x 轴上表示,在 y 轴上表示值计数。

    可以通过更改 最小值最大值 或滑动条形图来控制是删除或保留图表的低端和高端值。 更改最小值和最大值设置时,图表中通过底纹显示的部分即为被隐藏的数据。

选择要使用的离群值后,告知向导如何处理离群值。 可以删除包含离群值的行,也可以指定替换值,例如平均值、null 或所选的其他值。

最后,向导提供了一些用于显示新数据的选项。 可以将原始数据替换为新值,将新列添加到包含新值的表中,或创建包含更新数据的新工作表。

使用离群值向导

  1. 数据挖掘功能区中,单击清理数据,然后选择离群值

  2. “选择源数据 ”对话框中,选择 Excel 数据表或单元格区域,然后单击“ 下一步”。

    警告

    不能对外部数据使用 离群值 向导,除非先将其复制到 Excel。

  3. 在“ 选择列 ”对话框中,选择 单个 列。

    单击 “下一步”

  4. 在“ 指定阈值 ”对话框中,查看数据的分布。

    • 如果列包含离散值,向导将显示一个直方图,其中包含每个离散值的计数。

      假设离群值很少见,可以通过更改 最小值 来筛选出这些值。

    • 如果列包含数值数据,则可以单击“ 视图为离散 ”按钮或 “视图为数字 ”按钮,在查看条形图或折线图中的值之间切换。

  5. 在“ 指定阈值 ”对话框中,通过键入最小值和最大值或拖动滑块条来选择要保留的数据范围。 单击 “下一步”

  6. 在“ 离群值处理 ”对话框中,指定是要删除还是替换值,然后单击“ 下一步”。

  7. “选择目标 ”对话框中,指定要保存新数据的位置。

向导提供以下选项:

选项 注释
选择列 一次只能处理一列。
指定阈值处理 使用 “最小值 ”设置阈值以排除行数少于阈值的值。

最初, Minimum 中的值等于包含最少行的值,并且不能使最小值低于该值。
离群值处理 如果您决定删除离群值,您可以选择更改当前工作表中的数据,也可以在新工作表中创建数据副本。

另请参阅

浏览数据(SQL Server 数据挖掘加载项)