使用 Power BI 视觉对象识别离群值

已完成

离群值是数据中的一种异常类型。 这是您意想不到的,或者基于历史平均值或结果让您感到惊讶的事情。 您应该标识离群值以隔离与其他数据点显著不同的数据点,然后采取操作调查差异的原因。 此分析可以对业务决策产生重大影响。

考虑以下应用场景:您正在分析装运仓库的数据。 您注意到,特定产品类别的订单数上升到了平均值以上。 您首先想要确定产品类别。 然后,您想要询问几个有关离群值的问题,例如:

  • 当天是否出现了高于平均值的装运数量?
  • 此异常是否发生在特定的仓库中?
  • 是否是单个事件导致该特定类别出现了订单量上升?
  • 上个月、上个季度、上一年或往年其他日子是否出现过此事件?

Power BI 允许您识别数据中的离群值,但首先需要确定离群值构成背后的逻辑。 可以围绕视为离群值的内容使用触发器点(例如计算)。

识别离群值的流程涉及将数据细分为两个组:一个组是离群值数据,另一个组不是。 可以使用计算列识别离群值,但在刷新数据之前,结果是静态的。 识别离群值的更好方法是使用可视化或度量值,因为这些方法可确保结果是动态的。

当您识别数据中的离群值时,可以使用切片器或筛选器来突出显示这些离群值。 您还可以向视觉对象添加图例,以便在其他数据中识别离群值。 然后可以钻取离群值数据以进行更详细的分析。

使用视觉对象识别离群值

用于识别离群值的最佳视觉对象是散点图。 它可以显示两个数值之间的关系。 散点图显示大型数据集中的模式,因此非常适合用于显示离群值。

向报表添加散点图时,将感兴趣的字段分别放入 X 轴Y 轴井中。 在本示例中,Orders Shipped 字段位于 X 轴上,Qty Orders 字段位于 Y 轴上。

添加字段来填充散点图的屏幕截图。

视觉对象将更新以基于所选字段显示数据,从而可以轻松发现离群值,离群值是从主数据点中分隔出来的项目。

包含离群值的散点图的屏幕截图。

现在,您可以识别数据中的离群值,接下来可以调查其存在的原因并采取纠正措施。

使用度量值识别离群值

您可以创建一个度量值,以根据特定值识别数据中的离群值。 在以下代码中,Order QtySales 表中的度量值,Min Qty 是用于确定 Sales 表中的最低订单数量的度量值。

Outliers =
CALCULATE (
    [Order Qty],
    FILTER (
        VALUES ( 'Product'[Product Name] ),
        COUNTROWS (
            FILTER (
                Sales,
                [Order Qty] >= [Min Qty]
            )
        ) > 0
    )
)

创建离群值度量值后,您可以将产品分组到不同类别中,然后将该度量值添加到散点图视觉对象以分析离群值并对其执行操作。