增益圖以圖形方式表示採礦模型在與隨機猜測進行比較時所提供的改進,並測量增益分數的變更。 藉由比較數據集的不同部分和不同模型的增益分數,您可以判斷哪一個模型是最佳模型,而且數據集中的案例百分比可受益於套用模型的預測。
透過增益圖,您可以比較具有相同可預測屬性之多個模型的預測精確度。 您也可以評估單一結果的預測精確度(可預測屬性的單一值),或針對所有結果(指定屬性的所有值)。
收益圖是一種相關的圖表類型,其中包含與增益圖相同的資訊,但也會顯示與使用每個模型相關聯的預計利潤增加。
瞭解提升圖表
以抽象的方式很難理解提升圖。 因此,為了說明如何使用提升圖工具以及圖表中的資訊,本節將介紹一個案例,其中提升圖被用來估算針對性郵件行銷活動的回應。
此案例中的行銷部門知道,10% 的回應率在郵件行銷活動中是相對典型的。 他們有一個儲存在資料庫表中的10,000個潛在客戶清單。 根據一般回應率,他們通常只能預期約1,000個潛在客戶回應。 不過,為專案預算的資金不足以達到資料庫中所有10,000個客戶,而且想要改善其回應率。 假設在此案例中,其預算允許他們只將廣告郵寄給5,000位客戶。 行銷部門有兩個選項:
隨機選取 5,000 個目標客戶。
使用採礦模型,以最有可能回應的5,000個客戶為目標。
藉由使用增益圖,您可以比較這兩個選項的預期結果。 例如,如果公司隨機選取5,000個客戶,則根據一般回應率,他們可能會只收到500個回應。 此情形是升降圖中 隨機 線條所代表的內容。 不過,如果行銷部門使用採礦模型來鎖定其郵寄目標,他們可能會預期更好的回應率,因為模型會識別最有可能回應的客戶。 如果模型完美無缺,它會建立永遠不會錯誤的預測,而且公司可以預期只要將郵件傳送給模型建議的1,000個潛在客戶,就能收到1,000個回應。 此情況是提升圖中 理想 線所代表的內容。
現實情況是,採礦模型最有可能落在這兩個極端之間:隨機猜測與完美的預測之間。 從隨機猜測中得到的任何改進都被視為增益。
當您建立提昇圖時,可以只針對特定的目標值來量測提昇效果,或是進行整體的模型評估,以測量所有可能結果的提昇。 這些選擇將影響最終圖表,如下列各節所述。
具有目標值的提升圖
下圖顯示在基本數據採礦教學中建立的目標郵件模型的提升圖。 在此圖表中,目標屬性為 [Bike Buyer],而目標值為 1,這表示客戶預測要購買自行車。 因此,增益圖會顯示模型在識別這些潛在客戶時所提供的改進。
此圖表包含多個以相同數據為基礎的模型。 其中一個模型已自定義為以特定客戶為目標。 您可以藉由在用於模型訓練的數據上新增篩選條件來客製化模型。 此篩選條件會將訓練和評估中使用的案例限制為 30 歲以下的客戶。 請注意,篩選的其中一個效果是基本模型和篩選的模型使用不同的數據集,因此增益圖中用於評估的案例數目也不同。 當您解譯預測結果和其他統計數據時,請務必記住這一點。
圖表的 X 軸代表用來比較預測的測試數據集百分比。 圖表的 Y 軸代表預測值的百分比。
以藍色顯示的對角線直線會出現在每個圖表中。 它代表隨機猜測的結果,而且是評估增益的基準。 針對您新增至增益圖的每個模型,您會得到兩條額外的線條:一條線顯示訓練數據集的理想結果,假如您可以建立一個總是完美預測的模型,而第二條線則顯示該模型的實際增益或結果改善。
在此範例中,篩選模型的理想線條會以深藍色顯示,而實際增益線則以黃色顯示。 您可以從圖表中得知理想的折線尖峰約為 40%,這表示如果您有完美的模型,您可以傳送郵件給總人口的 40%,達到 100% 的目標客戶。 當您以 40% 到 70% 的人口為目標時,篩選模型的實際增益值介於 60% 到 70% 之間,這表示您可以將郵件傳送至客戶總數的 40%, 達到 60-70% 的目標客戶。
採礦圖例包含曲線上任何點的實際值。 您可以點擊垂直灰色列並拖動它來更改測量位置。 在圖表中,灰色折線已移至 30%,因為這是篩選和未篩選模型看起來最有效的點,而且在這一點之後,增益量會下降。
採礦圖例也包含可協助您解譯圖表的分數和統計數據。 這些結果代表模型在灰色線條位置的準確性,在此案例中,灰色線條包含了 30% 的整體測試案例。
| 數列和模型 | 分數 | 目標族群 | 預測機率 |
|---|---|---|---|
| 精準郵寄 | 0.71 | 47.40% | 61.38% |
| 針對 30 歲以下的目標郵件 | 0.85 | 51.81% | 46.62% |
| 隨機猜測模型 | 31.00% | ||
| 理想模型:適用於所有目標郵寄 | 62.48% | ||
| 理想的模型:針對30歲以下族群的目標郵件發送 | 65.28% |
解譯結果
從這些結果中,您可以看到,當測量為所有案例的 30% 時,一般模型 [目標郵寄全部],可以預測目標母體 47.40% 的自行車購買行為。 換句話說,如果您只將目標郵件傳送給資料庫中 30% 的客戶,您就能達到略少於目標對象的一半。 如果您使用篩選的模型,可能會得到稍微更好的結果,並達到約51%的目標客戶。
Predict probability 的值代表在「可能購買」案例中包含客戶所需的閾值。 針對每個案例,模型會估計每個預測的正確性,並儲存該值,您可以使用該值來篩選出或鎖定客戶。 例如,若要從可能購買者的基本模型識別客戶,您可以使用查詢來擷取至少 61% 的預測機率案例。 若要取得篩選模型的目標客戶,您可以建立查詢,以擷取符合所有準則的案例:年齡和 PredictProbability 至少 46% 的值。
比較模型很有趣。 篩選的模型似乎會擷取更多潛在客戶,但當您以預測機率分數為46%的客戶為目標時,您也有53%的機會將郵件傳送給不會購買自行車的人。 因此,如果您要決定哪一個模型比較好,您會想要在篩選模型的更高精確度和較小目標大小,與基本模型的選擇性之間取得平衡。
分數的值可協助您藉由計算模型在正規化母體中的有效性來比較模型。 較高的分數比較好,因此在此情況下,您可能會決定以 30 歲以下的客戶為目標是最有效的策略,儘管預測機率較低。
沒有目標值的模型增益圖
如果您未指定可預測資料行的狀態,您可以建立下圖所示的圖表類型。 此圖表顯示模型如何針對可預測屬性的所有狀態執行。 例如,此圖表會告訴您模型如何預測哪些客戶可能會購買自行車,以及哪些客戶不太可能購買自行車。
x 軸與圖表中指定可預測的數據行相同,但 Y 軸現在代表正確預測的百分比。 因此,理想的線條是對角線,顯示在 50% 的數據中,模型能正確預測 50 例%,這是最大可預期的情況。
您可以單擊圖表來移動垂直灰色長條, 而 [採礦圖例 ] 會顯示整體案例的百分比,以及正確預測的案例百分比。 例如,如果您將灰色滑杆置於 50% 位置,採礦圖例會顯示下列準確度分數。 這些數位是以基本數據採礦教學課程中建立的TM_Decision樹狀結構模型為基礎。
| 數列、模型 | 分數 | 目標族群 | 預測機率 |
|---|---|---|---|
| TM_決策樹 | 0.77 | 40.50% | 72.91% |
| 理想的模型 | 50.00% |
此表顯示,在 50% 的人口中,您建立的模型會正確預測 40% 的個案。 您可能會將此視為相當精確的模型。 不過,請記住,此特定模型會預測可預測屬性的所有值。 因此,模型在預測 90% 的客戶不會購買自行車時可能準確。
提升圖的限制
提昇圖表需要可預測屬性是離散值。 換句話說,您無法使用增益圖來測量預測連續數值之模型的精確度。
可預測屬性之所有離散值的預測精確度會顯示在單行中。 如果您想要查看任何可預測屬性個別值的預測精確度線,您必須為每個目標值建立個別的增益圖。
只要模型都有相同的可預測屬性,您就可以將多個模型新增至增益圖。 未共享屬性的模型將無法在 [ 輸入 ] 索引標籤中選取。
您無法在增益圖或收益圖中顯示時間序列模型。 測量時間序列預測精確度的常見做法是保留一部分歷程記錄數據,並將該數據與預測進行比較。 如需詳細資訊,請參閱 Microsoft時間序列演算法。