當您使用適用於 Excel 的數據表分析工具執行數據採礦時,您不需要設定資料採礦演算法或參數;每個工具都會分析您的數據,並自動選取最佳參數。 不過,如果您想要修改模型,或從頭開始建立採礦模型,適用於 Excel 的數據採礦用戶端會提供數個選項來進行自定義。
按兩下 [ 進階 ],然後按兩下 [ 將模型新增至結構],以手動建立數據採礦模型。
使用數據採礦用戶端中的任何模型精靈,然後按兩下 [ 參數 ] 來控制Microsoft數據採礦演演算法的行為。
按兩下 [查詢 ] 以開啟 [查詢模型精靈],然後按兩下 [ 進階 ] 以開啟 [資料採礦進階查詢編輯器]。 在此編輯器中,您可以使用 DMX 範本來建置模型。
您也可以修改已建立的採礦模型行為,也可以藉由在採礦模型查看器中設定參數來篩選結果。
演算法參數清單
您可以藉由設定參數來自定義所有Microsoft演算法。 因為最佳參數設定取決於數據組合,因此變更參數效果的完整說明超出本主題的範圍。
下表列出參數、描述其功能,並提供更多技術信息的連結。
| 參數名稱 | 用於 | 說明 |
|---|---|---|
| 自動檢測週期性 | Microsoft時間序列演算法 | 指定介於 0 到 1 之間的數值,用來偵測週期性。 將此值設定為接近 1,有利於探索許多近乎定期的模式,以及自動產生週期性提示。 處理許多週期性提示可能會導致模型訓練時間顯著延長,但模型的精確性也會提高。 如果值接近 0,則只會針對強週期性數據偵測到週期性。 預設值為 0.6。 |
| 群集計數 | Microsoft叢集演算法 Microsoft時序群集演算法 |
指定演算法所要建置的大約叢集數目。 如果無法從數據建置大約數目的叢集,演算法會盡可能建置多個叢集。 將CLUSTER_COUNT設定為 0 會導致演算法使用啟發學習法來判斷要建置的叢集數目。 預設值為 10。 |
| CLUSTER_SEED(叢集種子) | Microsoft叢集演算法 | 指定用於隨機產生模型建置初始階段叢集的種子編號。 預設值為 0。 |
| 聚類方法 | Microsoft叢集演算法 | 指定要使用之演算法的叢集方法。 下列叢集方法可供使用:可調整的 EM (1)、不可調整的 EM (2)、可調整的 K-Means (3),以及不可調整的 K-Means (4)。 預設值為 1。 |
| 複雜性懲罰 | Microsoft判定樹演算法 Microsoft時間序列演算法 |
控制決策樹的成長。 低值會增加分割數目,而高值會減少分割的數目。 預設值是以特定模型的屬性數目為基礎,如下列清單所述: 針對 1 到 9 個屬性,預設值為 0.5。 針對 10 到 99 屬性,預設值為 0.9。 對於100個以上的屬性,預設值為0.99。 注意:在時間序列模型中,此參數只適用於使用ARTxp演算法或混合模型所建置的模型。 |
| 強制回歸器 | Microsoft判定樹演算法 Microsoft線性回歸演算法 |
強制演算法使用指示的數據行做為回歸輸入變數,而不論演算法計算的數據行的重要性為何。 注意:此參數僅用於預測連續屬性的判定樹。 根據定義,線性回歸模型是預測連續屬性之判定樹的特殊案例。 不過,任何判定樹模型都可以包含代表線性回歸公式的節點。 |
| 預測方法 | Microsoft時間序列演算法 | 指出是否應該使用 ARTxp 演算法、ARIMA 演算法或兩者的組合進行預測。 預設值為MIXED。 |
| 隱藏節點比率 | Microsoft類神經網路演算法 | 指定隱藏神經元與輸入和輸出神經元的比例。 下列公式會決定隱藏層中神經元的初始數目: HIDDEN_NODE_RATIO * SQRT(總輸入神經元 * 總輸出神經元) 預設值為 4.0。 |
| 歷史模型數量 | Microsoft時間序列演算法 | 指定要建置的歷史模型數目。 預設值為 1。 |
| 歷史模型差距 | Microsoft時間序列演算法 | 指定兩個連續歷史模型之間的時間延遲。 例如,將此值設定為 g 會用於針對以 g、2*g、3*g 等間隔的時間片段截斷的數據建立歷史模型。 預設值為 10。 |
| 保留比例 | Microsoft羅吉斯回歸演算法 Microsoft類神經網路演算法 |
指定訓練數據中用於計算驗證錯誤的案例百分比,作為訓練採礦模型時停止準則的一部分。 預設值為 30。 注意:此參數與應用於採礦結構的保留百分比值不同。 |
| 保留種子 | Microsoft羅吉斯回歸演算法 Microsoft類神經網路演算法 |
指定用於設定偽隨機生成器的種子數字,以在演算法隨機確定保留數據時使用。 如果此參數設定為 0,演算法會根據採礦模型的名稱產生種子,以確保在重新處理期間模型內容保持不變。 預設值為 0。 注意:此參數與應用於採礦結構的留存種子值不同。 |
| 不穩定性敏感度 | Microsoft時間序列演算法 | 控制預測變數超過特定閾值的點,ARTxp 演算法會抑制預測。 預設值為 1。 注意:此參數僅適用於使用ARTxp演算法的混合模型或模型。 |
| 最大輸入屬性 | Microsoft叢集演算法 Microsoft判定樹演算法 Microsoft線性回歸演算法 Microsoft天真貝氏分類演算法 Microsoft類神經網路演算法 Microsoft羅吉斯回歸演算法 |
定義演算法在叫用特徵選取之前可以處理的輸入屬性數目。 將此值設定為 0 以關閉特徵選取。 預設值為 255。 |
| 最大項目集數量 | Microsoft關聯演算法 | 指定要產生的項目集數目上限。 如果未指定任何數字,演算法會產生所有可能的項目集。 預設值為 200000。 |
| 最大項集大小 | Microsoft關聯演算法 | 指定專案集中允許的項目數目上限。 將此值設定為 0 會指定專案集的大小沒有限制。 預設值為 3。 |
| 最大輸出屬性 | Microsoft判定樹演算法 Microsoft線性回歸演算法 Microsoft羅吉斯回歸演算法 Microsoft天真貝氏分類演算法 Microsoft類神經網路演算法 |
定義演算法在叫用特徵選取之前可以處理的輸出屬性數目。 將此值設定為 0 以關閉特徵選取。 預設值為 255。 |
| 最大序列狀態 | Microsoft時序群集演算法 | 指定序列可以擁有的最大狀態數目。 將此值設定為大於 100 的數位,可能會導致演算法建立未提供有意義資訊的模型。 預設值為 64。 |
| 最大序列值 | Microsoft時間序列演算法 | 指定要用於預測的最大值。 此參數會與MINIMUM_SERIES_VALUE一起使用,將預測限製為一些預期的範圍。 例如,您可以指定任何一天的預測銷售數量不應超過庫存中的產品數目。 |
| 最大狀態 | Microsoft叢集演算法 Microsoft類神經網路演算法 Microsoft時序群集演算法 |
指定演算法所支援的屬性狀態數目上限。 如果屬性的狀態數目大於狀態數目上限,則演算法會使用屬性最受歡迎的狀態,並忽略其餘狀態。 預設值為 100。 |
| 最大支援 | Microsoft關聯演算法 | 指定專案集可支援的最大案例數目。 如果此值小於 1,則值代表總案例的百分比。 如果此值大於 1,則值代表可以包含專案集的絕對案例數目。 預設值為 1。 |
| 最低重要性 | Microsoft關聯演算法 | 指定關聯規則的重要性閾值。 重要性小於此值的規則會篩選掉。 |
| 最小項目集大小 | Microsoft關聯演算法 | 指定專案集中允許的項目數目下限。 預設值為 1。 |
| 最低依賴機率 | Microsoft天真貝氏分類演算法 | 指定輸入和輸出屬性之間的最小相依性機率。 這個值用來限制演算法所產生的內容大小。 這個屬性可以從 0 設定為 1。 較大的值會減少模型內容中的屬性數目。 預設值為 0.5。 |
| 最低概率 | Microsoft關聯演算法 | 指定規則為 true 的最小機率。 例如,將此值設定為 0.5 會指定不會產生小於 50% 機率的規則。 預設值為 0.4。 |
| 最小序列值 | Microsoft時間序列演算法 | 設置任何時間序列預測的下限約束。 預測值永遠不會小於此條件約束。 |
| 最低支援 | Microsoft關聯演算法 | 指定在演算法生成規則之前,必須包含項目集的最小案例數。 將此值設定為小於 1,會將案例數目下限指定為案例總數的百分比。 將此值設定為大於 1 的整數,會將最小案例數目指定為必須包含專案集的絕對案例數目。 如果記憶體有限,演算法可能會增加此參數的值。 預設值為 0.03。 |
| 最低支援 | Microsoft叢集演算法 | 指定每個叢集中的最小案例數目。 預設值為 1。 |
| 最低支援 | Microsoft判定樹演算法 | 決定在決策樹中生成拆分所需的最小分葉案例數目。 預設值為 10。 |
| 最低支援 | Microsoft時序群集演算法 | 指定每個叢集中的最小案例數目。 預設值為 10。 |
| 最低支援 | Microsoft時間序列演算法 | 指定在每一個時間序列樹中產生分割所需的最小時間片段數目。 預設值為 10。 |
| 缺失值替代 | Microsoft時間序列演算法 | 指定用來填滿歷程記錄數據間距的方法。 依照預設設定,數據中不允許出現不規則的間距或鋸齒狀的邊緣。 下列方法可用來填入不規則的間距或邊緣:使用先前的值、使用平均值,或使用特定的數值常數。 |
| 建模基數 | Microsoft叢集演算法 | 指定叢集程式期間建構的範例模型數目。 預設值為 10。 |
| 週期性提示 | Microsoft時間序列演算法 | 提供演算法提示,以理解數據的週期性。 例如,如果銷售額依年份而有所不同,而數列中的度量單位是月份,則週期性為 12。 此參數採用 {n [, n]} 的格式,其中 n 是任何正數。 括弧 [] 內的 n 是選擇性的,可以視需要重複。 預設值為 {1}。 |
| 預測平滑 (PREDICTION_SMOOTHING) | Microsoft時間序列演算法 | 控制 ARTXP 和 ARIMA 時間序列演算法的混合。 只有當FORECAST_METHOD參數設定為MIXED時,指定的值才有效。 值必須介於 0 到 1 之間。 如果值為 0,則模型只會使用 ARTXP。 如果值為 1,則模型只會使用 ARIMA。 接近 0 的值較重於 ARTXP。 越接近 1 的值,越偏重於 ARIMA。 |
| 樣本大小 | Microsoft叢集演算法 | 如果CLUSTERING_METHOD參數設定為其中一個可調整的叢集方法,則指定演算法在每個傳遞上使用的案例數目。 將 SAMPLE_SIZE 參數設定為 0 會導致整個數據集在單一傳遞中叢集。 這可能會導致記憶體和效能問題。 預設值為 50000。 |
| 樣本大小 | Microsoft羅吉斯回歸演算法 Microsoft類神經網路演算法 |
指定要用來定型模型的案例數目。 演算法提供者會使用這個數位或未包含在HOLDOUT_PERCENTAGE參數所指定之鑒效組百分比中之案例總數的百分比,以較小的值為準。 換句話說,如果HOLDOUT_PERCENTAGE設定為 30,則演算法會使用此參數的值,或等於案例總數的 70% 的值,無論哪一個較小。 預設值為 10000。 |
| 評分方法 | Microsoft判定樹演算法 | 決定用來計算分割分數的方法。 下列選項可供使用:(1)熵、(2)K2 先驗下的貝氏,或 (3)貝氏迪里希萊特等價先驗(BDE 先驗)。 預設值為 3。 |
| 分割方法 | Microsoft判定樹演算法 | 決定用來分割節點的方法。 下列選項可供使用:二進位 (1)、完成 (2)或兩者 (3)。 預設值為 3。 |
| 停止公差 | Microsoft叢集演算法技術參考 | 指定值,用來判斷何時達到聚合,且演算法完成建置模型。 當叢集機率的整體變更小於除以模型大小之STOPPING_TOLERANCE參數的比例時,就會達到聚合。 預設值為 10。 |
評論
如需演算法的其他詳細數據,請參閱《SQL Server 在線叢書》。