交叉驗證是分析中的標準工具,是協助您開發和微調數據採礦模型的重要功能。 建立採礦模型之後,您可以使用交叉驗證來確認模型的有效性,並將其結果與其他相關的採礦模型進行比較。
交叉驗證包含兩個階段:訓練和報告生成。 您將完成下列步驟:
選取目標採礦結構或採礦模型。
如果適用,請指定目標值。
指定要分割結構數據之交叉區段或 折疊的數目。
接著 ,交叉驗證 精靈會在每個折疊上建立新的模型、在其他折疊上測試模型,然後報告模型的精確度。 完成時, 交叉驗證 精靈會建立報告,以顯示每個折疊的計量,並提供匯總中的模型摘要。 此資訊可用來判斷模型的基礎數據有多好,或比較以相同數據為基礎的不同模型。
使用交叉驗證精靈
您可以針對儲存在 Analysis Services 實例上的暫存模型和模型使用交叉驗證。
建立交叉驗證報告
在 [數據採礦] 功能區的 [精確度和驗證] 群組中,按兩下 [交叉驗證]。
在 [ 選取結構或模型 ] 對話框中,選取現有的採礦結構或採礦模型。 如果您選取結構,精靈將會針對以具有相同可預測屬性之結構為基礎的所有模型使用交叉驗證。 如果您選取模型,精靈只會針對該模型使用交叉驗證。
在 [指定交叉驗證參數] 對話方塊的 [分層數] 方塊中,選擇用來分割數據集的分層數目。 折疊是隨機選取的數據交叉區段。
或者,在 [ 最大 數據列] 文本框中輸入數位,以設定交叉驗證中使用的數據列數目上限。
備註
您使用的數據列越多,結果就越精確。 不過,處理時間也可能大幅增加。 您選擇的數字取決於您的數據,但一般而言,您應該選擇最高數目,而不需要犧牲效能。 若要改善效能,您也可以指定較少的折疊。
從 [目標屬性 ] 下拉式清單中選取資料行。 此清單只會顯示您最初建立模型時設定為可預測屬性的數據行。 此模型可能包含多個可預測的屬性,但您只能選擇一個屬性。
從 [目標狀態 ] 下拉式清單中選取值。
如果可預測數據列包含連續數值數據,則無法使用此選項。
選擇性地指定一個值作為目標臨界值來計算精確預測。 這個值是以機率表示,這是介於 0 到 1 之間的數位,其中 1 表示預測保證準確,0 表示預測沒有正確的機會,而 .5 與隨機猜測相同。
如果可預測數據列包含連續數值數據,則無法使用此選項。
按一下完成。 系統會建立名為 交叉驗證的新工作表。
備註
Microsoft Excel 可能會在模型被劃分成多個折疊並在每個折疊進行測試時暫時不回應。
需求
若要建立交叉驗證報告,您必須已經建立數據採礦結構和相關模型。 精靈會提供對話框,協助您從現有的結構和模型中選擇。
如果您選擇支援多個資料挖掘模型的資料挖掘結構,且模型使用的可預測屬性不同,交叉驗證精靈只會測試那些共用相同可預測屬性的模型。
如果您選擇支援叢集模型和其他類型的模型的結構,則不會測試叢集模型。
瞭解交叉驗證結果
交叉驗證的結果會顯示在新工作表中,標題為屬性名稱>的<交叉驗證報告。 新的工作表包含數個區段:第一個區段是一個摘要,提供已測試之模型的重要元數據,讓您知道結果的模型或結構。
報表中的第二個區段提供統計摘要,指出原始模型有多好。 在此摘要中,會針對三個主要量值來分析針對每個折疊建立的模型之間的差異: 根均方誤差、 平均絕對誤差和 記錄分數。 這些是標準統計量值,不僅用於數據採礦,而且用於大部分類型的統計分析。
針對每個量值,交叉驗證精靈會計算整個模型的平均和標準偏差。 這會告訴您模型在預測數據的不同子集時,模型有多一致。 例如,如果標準偏差非常大,則表示針對每個折疊建立的模型有非常不同的結果,因此模型可能已針對特定數據群組進行太接近定型,不適用於其他數據集。
下一節說明用來評估模型的量值。
測試和量度
除了一些有關數據折疊數目的基本資訊,以及每個折疊中的數據量之外,工作表也會顯示一組依測試類型分類的每個模型計量。 例如,叢集模型的準確度是透過不同於預測模型的測試進行評估。
下表列出測試和計量,並說明計量的意義。
匯總和一般統計量值
報表中提供的匯總量值會指出您在數據中建立的折疊如何彼此不同。
平均值和標準偏差。
特定量值在模型中的所有區塊中的平均偏離值。
分類:通過/失敗
當您未指定可預測屬性的目標值時,此量值會用於分類模型中。 例如,如果您建立預測多個可能性的模型,此量值會告訴您模型在預測所有可能值時的表現。
傳遞/失敗的計算方式是計算符合下列條件的案例:如果具有最高機率的預測狀態與輸入狀態相同,且機率大於您為狀態臨界值指定的值,則傳遞:否則,會失敗。
分類:正或假陽性和陰性
此測試用於具有指定目標的所有分類模型。 量值會指出每個案例如何分類以響應這些問題:模型預測的內容,以及實際結果為何。
| 量值 | 說明 |
|---|---|
| 確判為真 | 符合這些條件的案例計數: 條件包含目標值。 模型預測該案例包含目標值。 |
| 偽陽性 | 符合這些條件的案例計數: 實際值等於目標值。 模型預測該案例包含目標值。 |
| 誤判為真 | 符合這些條件的案例計數: Case 不包含目標值。 模型預測該案例不包含目標值。 |
| 誤判為假 | 符合這些條件的案例計數: 實際值不等於目標值。 模型預測該案例不包含目標值。 |
電梯
增益 是與可能性相關聯的量值。 如果結果在使用模型時比您進行隨機猜測時更可能,則模型會表示提供 正增益。 不過,如果模型預測的可能性小於隨機機率,則增益分數為 負數。 因此,此指標表示使用模型可以達到的改善量,且分數越高越好。
提昇值計算為實際預測機率與測試案例中邊際機率的比率。
記錄分數
對數分數,也稱為預測的對數可能性分數,代表兩個機率之間的比率,轉換為對數尺度。 由於機率是以小數點表示,因此記錄分數一律為負數。 接近 0 的分數是更好的分數。
雖然原始分數可能會有非常不規則或扭曲的分佈,但記錄分數與百分比類似。
根平均平方誤差
根平均平方誤差 (RMSE) 是統計數據中的標準方法,可查看不同數據集的比較方式,並平滑輸入規模可引入的差異。
RMSE 表示與實際值相比較時所預測值的平均誤差。 它會計算為所有分割區案例之平均誤差的平方根,除以分割區中的案例數目,不包括目標屬性遺漏值的數據列。
平均絕對誤差
平均絕對誤差是預測值到實際值的平均誤差。 其計算方式是取得錯誤的絕對總和,並找出這些錯誤的平均值。
此值可協助您瞭解分數與平均值的差異。
案例可能性
此量值僅用於叢集模型,並指出新案例可能屬於特定叢集。
在群集模型中,有兩種叢集成員資格,視您用來建立模型的方法而定。 在某些模型中,根據 K-means 演算法,新案例應該只屬於一個叢集。 不過,根據預設,Microsoft叢集演算法會使用預期最大化方法,假設新案例可能屬於任何叢集。 因此,在這些模型中,一個案例可以有多個 CaseLikelihood 值,但預設報告的是該案例屬於與新案例最匹配的叢集的概率。