您可以使用分類矩陣來評估模型的預測精確度。 若要產生分類矩陣,您可以透過模型執行一組測試數據,而分類矩陣工具會比較測試集的實際值與模型所做的預測。 藉由查看矩陣,您可以一目了然地瞭解模型正確的頻率,以及其預測錯誤的頻率。
在這些載入巨集中,使用 分類矩陣 精靈來選取模型、指定測試數據,然後產生結果矩陣。
如何讀取分類矩陣
假設您的目標是設計客戶忠誠度計劃,然後將客戶指派給適當的類別,以便提供適當的獎勵層級。 您已為獎勵計劃實作三個層級,即銅牌、銀級和金牌,並在試用階段將這些層級提供給客戶。 您也設計了可分析客戶並預測正確類別的模型。 現在,您將運用分類矩陣分析試驗數據,以判斷模型在預測所有客戶的正確優惠方面有多優秀。
分類矩陣中的數據表會告訴您根據模型指派給每個類別的客戶數目,並將該結果與實際註冊每個獎勵層級的客戶數目進行比較。
| 銅(實際) | 金 (實際) | 銀 (實際) | |
|---|---|---|---|
| 青銅 | 94.45% | 15.18% | 1.70% |
| 黃金 | 2.72% | 84.82% | 0.00% |
| 銀 | 1.84% | 0.00% | 93.80% |
| 正確 | 95.45% | 84.82% | 98.30% |
| 分類錯誤 | 4.55% | 15.18% | 1.70% |
每個數據行都會顯示測試數據集中的實際值。
每個數據列都會顯示預測值。
粗體中的值,沿著矩陣從左上角到右下角的對角線排列,顯示模型準確判斷的情況。
對角線以外的所有其他值都代表錯誤。 有些錯誤是偽陽性,這表示模型預測客戶會加入金牌計劃,但事實並非如此。 視您的網域而定,誤判可能會非常昂貴。
其他人屬於假陰性,這意味著模型預測客戶對此不感興趣,但他或她確實加入了該計劃。 同樣地,視問題網域而定,此遺失的機會成本可能相當重要。
使用分類矩陣精靈
選取用於預測的採礦模型。
選取新測試數據的來源,或使用與 結構一起儲存的測試數據。
選取您要評估精確度的欄位。 建立矩陣時,您只能選擇一個數據行,但數據行可以有多個值。
提示:如果您的可預測數據行有許多數據行要比較,則很難解譯分類矩陣。
在 選取要預測的欄位 頁面中,您也可以指定是否要顯示正確與不正確的值計數,或顯示百分比。
在 [選取源數據] 頁面上,指出您是使用外部測試數據,還是與模型一起儲存的測試數據。
如果您使用外部測試數據,則必須將模型對應至精靈的 [ 指定關聯性 ] 頁面上的輸入數據行。
如果您使用嵌入式測試數據集,則會為您完成對應
按兩下 [完成 ] 以對模型執行預測,併產生分類矩陣。
精靈會建立報表,其中包含分類矩陣,以及分析的其他詳細數據。 此報表會儲存為 Excel 中的數據表,報表上方有摘要,指出已正確預測多少案例,以及有多少預測錯誤。
需求
若要建立分類矩陣,您必須能夠存取支援精確度測量的現有採礦模型。 無法使用此工具來測量預測模型和關聯模型。
您測量的模型需要預測離散或已經離散化的值。
如果您未使用選項來儲存測試集以及您的結構或模型,那麼您需要取得一個輸入數據集,其中的資料行數目與模型中使用的基本相同,且其資料類型也需匹配。
數據採礦模型和您用於測試的新數據必須包含至少一個可以預測的數據行,而且數據行必須包含相同類型的數據。
已知問題
在 SQL Server 2012 和 SQL Server 2014 中,將內部測試數據集對應至模型的能力無法在 分類矩陣 工具中運作。 不過,您可以指定外部數據集,然後選取定型集做為輸入,以判斷原始數據集上的錯誤。
另請參閱
驗證模型和使用模型進行預測(適用於 Excel 的資料探勘增益集)
資料探索(SQL Server 資料探勘外掛程式)
偵測類別 (適用於 Excel 的數據表分析工具 )