次の方法で共有


関連付けウィザード (Excel 用データ マイニング クライアント)

[データ マイニング] リボンの [関連付け] ウィザード

関連付けウィザードを使用すると、Microsoft アソシエーション ルール アルゴリズムを使用してデータ マイニング モデルを作成できます。 このようなマイニング モデルは、 レコメンデーション システムの作成に特に役立ちます。

そのしくみは、Microsoft アソシエーション ルール アルゴリズムは、トランザクションまたはイベントで構成されるデータセットをスキャンし、頻繁に一緒に表示される組み合わせを見つけることです。 何千もの組み合わせが存在する可能性がありますが、アルゴリズムをカスタマイズして、多くの組み合わせを検索したり減らしたり、最も可能性の高い組み合わせのみを保持することができます。

関連付け分析は、多くの問題に適用できます。 この方法の最も一般的な用途は、市場バスケット分析であり、一緒に購入されることが多い個々の製品を見つけます。 その後、その情報を使用して、既に購入したアイテムに基づいて顧客に製品を推奨できます。

関連付けウィザードの使用

  1. [ データ マイニング ] リボンの [ 関連付け] をクリックします。

  2. [ ソース データの選択 ] ページで、Excel のテーブルまたはデータ範囲を選択し、[ 次へ] をクリックします。

    サンプル データ ブックには、[関連付け] タブに、トランザクション データの通常の配置方法の例が含まれています。たとえば、各トランザクションに複数の製品がある場合や、分析する顧客ごとに複数の購入レコードがある場合などです。

    外部データを使用して関連付けウィザードを使用して関連付けモデルを構築する場合は、まず Excel にデータを追加し、データを フラット化 する必要があります。 アソシエーション モデリング用のデータの準備の詳細については、SQL Server オンライン ブックの 入れ子になったテーブル (Analysis Services - データ マイニング) を参照してください。

  3. [ 関連付け ] ページで、トランザクションを識別する列を選択します。

    マーケット バスケット モデルの場合、この識別子は、モデル化する単位を表します。 個々の顧客が時間の経過と同時に購入したアイテムを分析するか、複数の顧客が関係する多くのトランザクションを分析しますか? 最初のケースでは、顧客 ID を選択します。後者では、発注書またはその他のトランザクション ID を選択します。

  4. [項目] で、関連付けを検索する必要がある項目を含む列を選択します。

    たとえば、マーケット バスケット モデルでは、製品フィールドを選択して、一緒に購入されることが多い製品を分析します。 個別の製品が多すぎて効果的に関連付けることができない場合は、製品カテゴリまたはサブカテゴリフィールドを選択することができます。

  5. しきい値では、モデルの出力を制御または影響する値を設定できます。

    • 最小サポート。 項目のグループが重要と見なされる必要がある回数を指定します。 アルゴリズムは、この条件を満たしていない項目の組み合わせを無視します。 たとえば、アイテムが全体で少なくとも10回一緒に登場したアイテムセットのみを表示したい場合があります。

    • 最小ルール確率。 ルールを保存するために必要な最小確率値を指定します。 データセット全体を分析してすべての組み合わせを検索し、確率を計算します。 しきい値が低い場合、ウィザードは、弱く関連付けられた項目を結びつけることがあります。 しきい値が大きすぎる場合は、サポート データが不足しているため、一部の関連付けが省略される可能性があります。

    一般に、これらの値を変更すると、次の効果があります。

    • サポートの値を小さくすると、検出される組み合わせの数を増やします。

    • サポートの上限を減らすと、頻繁に発生する項目を除外して、ほとんど意味を持たないようにします。

    • ルールの確率を低くすると、合計データ セットのコンテキストで重要と見なされるために、組み合わせが満たす必要がある要件が低くなります。

    ヒント: サポートと確率の異なる組み合わせを使用して、複数のマイニングモデルを作成することをお勧めします。 各モデルで使用した設定を追跡するには、Excel 用データ マイニング クライアントで使用できる ドキュメント モデル ウィザードを使用し、[ 詳細レポート ] オプションを使用します。 詳細については、「 マイニング モデルの文書化 (Excel 用データ マイニング アドイン)」を参照してください。

  6. 必要に応じて、[ パラメーター ] をクリックしてアルゴリズム パラメーターを変更し、マイニング モデルの動作をカスタマイズします。

    [アルゴリズム パラメーター] ダイアログ ボックスには、ウィザードで設定したすべてのパラメーターに加えて、MAXIMUM_SUPPORTなど、あまり一般的に使用されていないパラメーターが含まれています。 これらのパラメーターの使用方法については、「 Microsoft アソシエーション アルゴリズムテクニカル リファレンス」を参照してください

  7. [ 完了 ] ページで、データ セットとモデルの一意の名前を入力します。

  8. [オプション] では、モデルの完了後の操作方法を定義します。

    • ブラウズ モデルの準備ができたら、ウィザードによって、ルール、アイテムセット、および関連付けを示す依存関係ネットワーク グラフが表示されるウィンドウが開きます。

      アソシエーション モデル ビューアーでデータを解釈する方法の詳細については、「 関連付けルール モデルの参照」を参照してください。

    • ドリルスルーを有効にします。 モデルを介して基になるデータにアクセスするには、このオプションを選択します。

      ドリルスルーは、たとえば、特定のアイテムセットをクリックしてソース データを表示する場合に便利です。

    • 一時的なモデルを使用します。 モデルをサーバーに保存しない場合は、このオプションを選択します。 Excel を閉じると、一時モデルが削除されます。

  9. ウィザードは、考えられるすべての組み合わせを分析し、アイテムセットとルールを含むレポートを作成します。

アソシエーション モデルの詳細

Microsoft アソシエーション ルール アルゴリズムは、トレーニング データを調べて、トランザクションに一緒に表示されるアイテムを見つけます。 項目の各グループは 、アイテムセットを構成します。 その後、各アイテムセットが表示される回数がカウントされ、すべてのトランザクションにおける各アイテムセットの相対的な重要度が計算されます。

アルゴリズムでは、アイテムセットに関するこの情報を使用して、関連付けを予測したり、推奨事項を作成したりするために使用できるルールを生成します。 たとえば、ルールとして"作成者 1 で書籍を購入した場合、作成者 2 による書籍を購入した場合、ユーザーは作成者 3 によって書籍も購入する可能性があります。 各推奨事項には、関連付けの強度に基づいて確率が割り当てられます。

要求事項

関連付けウィザードを使用するには、Analysis Services データベースに接続されている必要があります。

ソース データはトランザクション テーブルとして編成する必要があります。 ソース データには、トランザクション識別子を含む 1 つの列が含まれている必要があります。 この列は、項目の各グループを識別します。 そのトランザクション列は、グループ内の個々のアイテムの名前または ID 番号を格納する 2 番目の列であるアイテム ID との一対多リレーションシップにある必要があります。

概念的には、これはショッピング カートの例を思い出すことで理解するのが最も簡単な場合があります。 ショッピング カートに ID が割り当てられている場合、ショッピング カート ID はトランザクションの識別子として機能します。 ポテトや牛乳などのショッピング カート内の各項目は、そのトランザクションのメンバーです。 関連付けアルゴリズムでは、トランザクション間でアイテムを追跡できます。たとえば、1 つのトランザクション内にポテトとミルクが出現する回数を決定します。

ソース データは、トランザクション識別子列で並べ替える必要があります。

こちらもご覧ください

データ マイニング モデルの作成
関連付けルール モデルの参照
買い物かご分析 (エクセル用テーブル分析ツール)
依存関係ネットワーク ダイアグラムのチュートリアル (データ マイニング アドイン)