[關聯精靈] 可協助您使用Microsoft關聯規則演算法建立數據採礦模型。 這類採礦模型特別適合用來建立 建議系統。
其運作方式是,Microsoft關聯規則演算法會掃描由交易或事件組成的數據集,並尋找經常出現在一起的組合。 可以有數千個組合,但演算法可以自定義來尋找更多或更少,並只保留最可能的組合。
您可以將關聯分析套用至許多問題。 此方法最受歡迎的應用是購物籃分析,其會尋找經常一起購買的個別產品。 然後,您可以根據客戶已購買的專案,使用該資訊向客戶推薦產品。
使用關聯精靈
在 數據採礦 功能區中,按一下 關聯。
在 [ 選取源數據] 頁面上,選擇 Excel 數據表或數據範圍,然後按 [ 下一步]。
範例數據活頁簿在 [關聯標籤頁] 中包含一個範例,說明交易資料通常是如何排列的,例如,當每個交易有多個產品或每個客戶有多個購買記錄需要分析時。
如果您想要使用外部數據,使用 [關聯精靈] 來建置關聯模型,您必須先將數據新增至 Excel,並將數據 扁平化 。 如需準備數據以進行關聯模型化的詳細資訊,請參閱《SQL Server 在線叢書》中的巢狀數據表(Analysis Services - 數據採礦)。
在 關聯 頁面上,選擇識別交易的欄位。
在市場籃模型中,該標識符代表您要建模的單位。 您要分析個別客戶經過一段時間購買的項目,還是要分析涉及多個客戶的許多交易? 在第一個案例中,您可以選擇客戶標識符;在後者中,您可以選擇採購單或其他交易標識符。
針對 項目,選取包含您需要在其中尋找關聯的項目的欄。
例如,在購物籃模型中,您可以選擇產品欄位,以分析哪些產品通常會一起購買。 如果有太多個別產品無法有效地相互關聯,您可以選擇產品類別或子類別欄位。
在 [臨界值] 中,您可以設定控制或影響模型輸出的值:
最低支援。 指出一組項目必須出現多少次才能被視為重要。 演算法會忽略不符合此準則的任何項目組合。 例如,您可能只想看到項目集,其中的項目在總共至少出現 10 次的情況下。
最小規則機率。 指定儲存規則所需的最小機率值。 系統會分析整個數據集以尋找所有組合,然後計算機率。 如果臨界值很低,精靈可能會將低度相關的項目聯繫起來。 如果臨界值太高,可能會省略某些關聯,因為它們沒有足夠的支持數據。
一般而言,變更這些值會產生下列效果:
當您降低支援值時,會增加找到的組合數目。
當您降低最大支援值時,會篩選掉出現頻率過高的專案,使它們變得意義不大。
當您降低規則的機率值時,便會降低組合需要滿足的條件,才能在整個數據集的背景中被視為重要。
提示: 最好使用不同的支援和機率組合來建立多個採礦模型。 若要追蹤每個模型所使用的設定,您可以使用 檔模型 精靈、適用於 Excel 的數據採礦用戶端中提供,以及使用 [詳細 報表] 選項。 如需更多資訊,請參閱文件化挖掘模型(適用於 Excel 的資料探勘增益集)。
或者,按兩下 [ 參數 ] 來變更演算法參數,並自定義採礦模型的行為。
[演算法參數] 對話框包含您在精靈中設定的所有參數,以及一些較不常用的參數,例如MAXIMUM_SUPPORT。 如需如何使用這些參數的詳細資訊,請參閱 Microsoft關聯演算法技術參考。
在 [ 完成] 頁面上,輸入數據集和模型的唯一名稱。
在 [選項] 中,您會定義要在模型完成之後使用模型的方式:
瀏覽。 當模型準備就緒時,精靈會開啟一個視窗來顯示規則、專案集,以及描述關聯之相依性網路圖表。
如需如何解譯關聯模型查看器中數據的詳細資訊,請參閱 瀏覽關聯規則模型。
啟用鑽取。 選取此選項可透過模型存取基礎數據。
當您需要點擊某個特定的項目集來查看原始數據時,鑽取功能會很有用,例如。
使用暫存模型。 如果您不想要將模型儲存在伺服器上,請選取此選項。 當您關閉 Excel 時,會刪除暫存模型。
精靈會分析所有可能的組合,並建立包含專案集和規則的報表。
深入了解關聯模型
Microsoft關聯規則算法會檢查訓練數據,以尋找一起出現在交易中的項目。 每個專案群組都會構成 專案集。 演算法接著會計算每個專案集出現次數,並計算所有交易中每個專案集的相對重要性。
此演算法會使用這個專案集的這項資訊來產生可用來預測關聯或提出建議的規則。 例如,規則可能是「如果使用者依作者 1 購買書籍,而作者 2 的書籍,則使用者很可能也會依作者 3 購買書籍」。 每個建議都會根據關聯強度來指派機率。
需求
若要使用 [關聯精靈],您必須連線到 Analysis Services 資料庫。
源數據必須組織為事務數據表。 源數據必須包含一個包含交易標識碼的數據行。 此欄識別每個項目群組。 該交易欄位必須與第二個欄位,即項目 ID 保持一對多的關係,以儲存群組中個別項目的名稱或 ID 編號。
從概念上講,這可能最容易通過回憶購物車範例來理解。 如果購物車已指派標識符,購物車標識符會做為交易的標識碼。 購物車中的每個商品,例如馬鈴薯或牛奶,都是該交易的成員。 關聯演算法可以追蹤交易中的商品:例如,判定馬鈴薯和牛奶在某筆交易中出現的次數。
來源數據必須按照交易識別碼列排序。