データに固有の値が含まれている場合があります。 たとえば、住宅所有者の年齢は 5 歳と表示される場合があります。 これらの値は、多くの場合、 外れ値と呼ばれ、データ入力エラーのために間違っているか、異常な傾向を示している可能性があります。 いずれの場合も、例外が分析の品質に影響を与える可能性があります。 例外の強調表示ツールは、これらの値を見つけて、さらにアクションを確認するのに役立ちます。
例外の強調表示ツールは、Excel データ テーブル内のデータの範囲全体を操作することも、少数の列のみを選択することもできます。 また、データの変動性を制御するしきい値を調整して、例外を増減することもできます。
ツールが分析を完了すると、分析した各列で見つかった外れ値の数の概要レポートを含む新しいワークシートが作成されます。 このツールでは、元のデータ テーブルの例外も強調表示されます。 このツールは全体的な傾向を分析するため、行のほとんどの値が正常であり、その行の 1 つのセルのみを強調表示する場合があります。 上記の住宅所有者の例では、[ 年齢 ] 列のみが強調表示されている可能性があります。
概要レポートで例外しきい値を変更することもできます。 この値は、特定のセルに異常な値が含まれている確率を示します。 そのため、値を大きくすると、外れ値として強調表示される値が少なくなります。 逆に、値を小さくすると、強調表示されたセルが増えます。
例外の強調表示ツールの使用
Excel テーブルを開き、[ 例外の強調表示] をクリックします。
分析する列を指定します。
[実行] をクリックします。
<テーブル名>外れ値というタイトルのワークシートを開き、見つかった外れ値の概要を表示します。
強調表示の数を変更するには、[例外の強調表示] レポートの [例外しきい値] 行の上矢印と下矢印をクリックします。
要求事項
これらの値に他の行の予測に役立つ可能性のある情報が含まれている場合は、不適切な値を含まない列を含めることができます。 ただし、欠損値またはゼロ値が多い列の選択を解除する必要があります。
選択したすべての列は一般的なパターンを作成するために使用されるため、次のような情報が不足しているとわかっている入力列を使用しないようにする必要があります。
ID などの一意の値を含む列。
誤った値の割合が高い列。
欠損値が多い列。
欠損値が多い入力列を含めるのに役立つ場合があることに注意してください。 たとえば、顧客が小売業者を通じて購入したときに住所フィールドの値が常に欠落している場合、データ マイニング アルゴリズムはこの情報を使用して他の類似の顧客を識別できます。 省略によってデータが欠落しているか、欠落状態が意味を持つのかを、ケースバイケースで判断する必要があります。
パターンの作成に役立つ可能性が低い列。 たとえば、すべての行で同じ値を持つ列では、パターンの構築に役立つ情報は追加されません。
ハイライト例外レポートの概要
[ 実行] をクリックすると、ツールによって次の 3 つの処理が実行されます。
テーブル内の現在のデータに基づいてデータ マイニング構造を作成します。
Microsoft クラスタリング アルゴリズムを使用して、新しいデータ マイニング モデルを作成します。
パターンに基づいて予測クエリを作成し、ワークシート内の値があり得ないかどうかを判断します。
例外のしきい値の初期値は常に 75 です。つまり、強調表示されたデータが間違っている可能性が 75% 計算されます。 このしきい値は、初期分析パスに対して自動的に設定されますが、レポートの値は変更できます。
[例外の強調表示] ツールでは、疑わしい元のデータ テーブル内のセルが強調表示されます。 濃い強調表示は、行に注意が必要なことを意味します。 明るい強調表示は、特定のセルの値が疑わしいと識別されたことを意味します。 例外のしきい値を変更すると、強調表示された値がそれに応じて変更されます。
概要グラフには、例外のしきい値を超えている各列のセル数が表示されます。
関連ツール
データ マイニングの準備でデータをクリーニングまたは確認する場合は、データ マイニング クライアント for Excel でデータ探索機能を試すこともできます。 このアドインには、外れ値の検索、データの再ラベル付け、データの分布の表示に役立つ、より高度なツールが用意されています。 Excel 用データ マイニング クライアントのデータ探索ツールの詳細については、「データの 探索とクリーニング」を参照してください。
例外の強調表示ツールでは、Microsoft クラスタリング アルゴリズムが使用されます。 クラスタリング モデルは、同様の特性を共有する行のグループを検出します。 Excel 用データ マイニング クライアントには、グラフと特性プロファイルを使用してクラスタリングによって作成されたデータ マイニング モデルを探索できる [参照 ] ウィンドウが用意されています。 例外の強調表示ツールによって作成されたクラスタリング モデルを参照する方法については、「モデルの参照 (Excel 用データ マイニング クライアント)」を参照してください。
Microsoft クラスタリング アルゴリズムの詳細については、SQL Server オンライン ブックの「Microsoft クラスタリング アルゴリズム」を参照してください。