Power BI ビジュアルを使用して外れ値を識別する
外れ値とは、データ内の異常の一種です。 過去の平均値や結果に基づいて予想しなかったり、以外と思われたりするデータです。 外れ値を特定して、他のデータ ポイントと大幅に異なるデータ ポイントを分離し、その違いの理由を調査するためのアクションを実行する必要があります。 この分析は、ビジネスの意思決定に大きな影響を与える可能性があります。
出荷倉庫のデータを分析するシナリオについて考えましょう。 特定の製品カテゴリについて、注文数が平均を超えて増えていることに気づきました。 まず、製品カテゴリを特定する必要があります。 その後、次のように外れ値に関する複数の質問を行います。
- その日に平均を超える出荷がありましたか。
- この特殊な状態は特定の倉庫で発生しましたか。
- この特定のカテゴリの注文が増えたことは、1 つのイベントが原因になっていますか。
- そのイベントは、前月、前四半期、前年、またはそれ以前の年にも発生しましたか。
Power BI を使用すると、データ内の外れ値を識別できますが、まず外れ値を構成するロジックを決定する必要があります。 何を外れ値とみなすかについて、計算などのトリガー ポイントを使用することができます。
外れ値を識別するプロセスでは、データを 2 つのグループに分割する必要があります。1 つのグループは外れ値データで、もう一方のグループは外れ値ではありません。 計算列を使用して外れ値を識別することはできますが、結果はデータを更新しない限り静的になります。 外れ値を識別するより良い方法は、ビジュアル化またはメジャーを使用する方法です。これらの方法により、結果が動的になるからです。
データ内の外れ値を識別する場合、スライサーまたはフィルターを使用してそれらの外れ値を強調表示できます。 さらに、他のデータの中で外れ値を識別できるよう、ビジュアルに凡例を追加することもできます。 その後、外れ値データをドリルダウンして詳細な分析を行うことができます。
ビジュアルを使用して外れ値を識別する
外れ値を識別するのに最適なビジュアルは散布図です。 2 つの数値の間のリレーションシップを表示できます。 散布図では、大量のデータ セット内のパターンが表示されるため、外れ値を表示するのに最適です。
レポートに散布図を追加するときは、対象のフィールドをそれぞれ X 軸と Y 軸のウェルに配置します。 この場合、Orders Shipped フィールドは X 軸にあり、Qty Orders フィールドは Y 軸にあります。
ビジュアルが更新され、選択したフィールドに基づいてデータが表示されるため、メインのデータ ポイントから分離された項目である外れ値を簡単に見つけることができます。
データの外れ値を識別できるようになったので、それらが存在する理由を調査し、是正措置を講じることができます。
メジャーを使用して外れ値を識別する
特定の値に基づいてデータ内の外れ値を識別するメジャーを作成できます。 次のコードでは、Order Qty は Sales テーブル内のメジャーであり、Min Qty は Sales テーブル内の最小注文数量を決定するメジャーです。
Outliers =
CALCULATE (
[Order Qty],
FILTER (
VALUES ( 'Product'[Product Name] ),
COUNTROWS (
FILTER (
Sales,
[Order Qty] >= [Min Qty]
)
) > 0
)
)
外れ値メジャーを作成したら、製品をカテゴリにグループ化し、そのメジャーを散布図ビジュアルに追加して外れ値を分析して対処することができます。