[例から補完] ツールを使えば、既存の値に基づいて新しいデータ列を作成できます。
たとえば、データに、他の列を使用した数式に基づく 購買金額 列、 注文数量 列、 Premier Customer 列が含まれているとします。 Premier Customer 列に多数の空白行が含まれている場合は、入力として [購買金額] 列と [注文数量] 列を使用して、欠損値を推測できます。 このツールは、入力した例と共にデータ内の既存のパターンを分析し、各顧客に割り当てるカテゴリを予測します。
結果に満足できない場合は、より多くの例を提供して結果を絞り込むことができます。
サンプル ツールから塗りつぶしを使用する
[ 分析 ] リボンで、[ 例から塗りつぶし ] をクリックします。
このツールでは、データの分析に基づいて入力する列が自動的に選択され、この提案を受け入れるかオーバーライドすることができます。
新しいデータの列を作成し、予測するデータの例を入力します。 予測する値ごとに少なくとも 1 つの例があることを確認します。 既存の列にデータを入力する場合は、欠損値を持つ列を選択します。
必要に応じて、[ 分析に使用する列の選択] をクリックします。 [ 高度な列の選択 ] ダイアログ ボックスで、不足しているデータを入力するときに最も役立つ可能性が高い列を指定します。
たとえば、ある列と欠損値を持つ列の間に因果関係があることがわかっている場合は、他の列の選択を解除して、より良い結果を得ることができます。
OK をクリックします。
[実行] をクリックします。
分析が完了すると、分析結果を含む新しい パターン ワークシートが作成されます。 レポートには、検出されたルール (主要なインフルエンサー) が一覧表示され、各ルールの確率が表示されます。
また、新しい値を含む列も元のデータ テーブルに自動的に追加されます。 値を確認し、元の値と比較できます。
要求事項
列内のデータのみを操作できます。 入力する系列が行に格納されている場合は、Excel の Paste, Transpose 関数を使用して、データを列形式に変更できます。
パターン レポートについて
[例から塗りつぶし] ツールを実行すると、検出されたパターンに関する詳細情報を提供するレポートが作成されます。 これらのパターンは、新しいデータ値を推定するために使用されます。
パターン レポートには、予測された各値の主要なインフルエンサーが表示されます。 各インフルエンサーまたはルールは、列、その列の値、および予測に対するルールの相対的な影響の組み合わせとして記述されます。
たとえば、注文の配送距離を示すワークシートに入力しようとすると、配送先が配送距離の値に強い影響を与えると論理的に予想される場合があります。 この場合、レポートには次の行が含まれている可能性があります。
| コラム | 価値 | 好意 | 相対影響 |
|---|---|---|---|
| 州県コード | 血液型 | >500 キロメートル | 80% |
つまり、 StateProvinceCode 列の値 AB は、 >500 キロメートルの出荷距離を強く予測します。
通常、予測は、この例よりもはるかに複雑なパターンに基づいており、レポートには予測ごとに多数のルール行が含まれる場合があります。 すべてのルールの効果を組み合わせて、予測値を導き出します。
注
相対影響 は網掛けバーとして表示されます。 バーが長いほど、このルールが入力値の予測である確率が高くなります。
このツールは、元のデータテーブルに、新しい列<列名> Extendedと名付けられたものを追加します。
元のデータ列に値が含まれている場合、その値は新しい列にコピーされます。 ただし、元の列に空白のセルが含まれている場合、新しい列にはウィザードによって予測された値が含まれます。
関連ツールと情報
また、Excel 用データ マイニング クライアントで使用できる データの探索 ウィザードを使用して、Excel 列の値の分布を調べることもできます。 詳細については、「 データの探索とクリーニング」を参照してください。