共用方式為


演算法參數(SQL Server 資料探勘增益集)

當您使用適用於 Excel 的數據表分析工具執行數據採礦時,您不需要設定資料採礦演算法或參數;每個工具都會分析您的數據,並自動選取最佳參數。 不過,如果您想要修改模型,或從頭開始建立採礦模型,適用於 Excel 的數據採礦用戶端會提供數個選項來進行自定義。

  • 按兩下 [ 進階 ],然後按兩下 [ 將模型新增至結構],以手動建立數據採礦模型。

  • 使用數據採礦用戶端中的任何模型精靈,然後按兩下 [ 參數 ] 來控制Microsoft數據採礦演演算法的行為。

  • 按兩下 [查詢 ] 以開啟 [查詢模型精靈],然後按兩下 [ 進階 ] 以開啟 [資料採礦進階查詢編輯器]。 在此編輯器中,您可以使用 DMX 範本來建置模型。

您也可以修改已建立的採礦模型行為,也可以藉由在採礦模型查看器中設定參數來篩選結果。

演算法參數清單

您可以藉由設定參數來自定義所有Microsoft演算法。 因為最佳參數設定取決於數據組合,因此變更參數效果的完整說明超出本主題的範圍。

下表列出參數、描述其功能,並提供更多技術信息的連結。

參數名稱 用於 說明
自動檢測週期性 Microsoft時間序列演算法 指定介於 0 到 1 之間的數值,用來偵測週期性。 將此值設定為接近 1,有利於探索許多近乎定期的模式,以及自動產生週期性提示。 處理許多週期性提示可能會導致模型訓練時間顯著延長,但模型的精確性也會提高。 如果值接近 0,則只會針對強週期性數據偵測到週期性。

預設值為 0.6。
群集計數 Microsoft叢集演算法

Microsoft時序群集演算法
指定演算法所要建置的大約叢集數目。 如果無法從數據建置大約數目的叢集,演算法會盡可能建置多個叢集。 將CLUSTER_COUNT設定為 0 會導致演算法使用啟發學習法來判斷要建置的叢集數目。

預設值為 10。
CLUSTER_SEED(叢集種子) Microsoft叢集演算法 指定用於隨機產生模型建置初始階段叢集的種子編號。

預設值為 0。
聚類方法 Microsoft叢集演算法 指定要使用之演算法的叢集方法。 下列叢集方法可供使用:可調整的 EM (1)、不可調整的 EM (2)、可調整的 K-Means (3),以及不可調整的 K-Means (4)。

預設值為 1。
複雜性懲罰 Microsoft判定樹演算法

Microsoft時間序列演算法
控制決策樹的成長。 低值會增加分割數目,而高值會減少分割的數目。 預設值是以特定模型的屬性數目為基礎,如下列清單所述:

針對 1 到 9 個屬性,預設值為 0.5。

針對 10 到 99 屬性,預設值為 0.9。

對於100個以上的屬性,預設值為0.99。

注意:在時間序列模型中,此參數只適用於使用ARTxp演算法或混合模型所建置的模型。
強制回歸器 Microsoft判定樹演算法

Microsoft線性回歸演算法
強制演算法使用指示的數據行做為回歸輸入變數,而不論演算法計算的數據行的重要性為何。

注意:此參數僅用於預測連續屬性的判定樹。 根據定義,線性回歸模型是預測連續屬性之判定樹的特殊案例。 不過,任何判定樹模型都可以包含代表線性回歸公式的節點。
預測方法 Microsoft時間序列演算法 指出是否應該使用 ARTxp 演算法、ARIMA 演算法或兩者的組合進行預測。

預設值為MIXED。
隱藏節點比率 Microsoft類神經網路演算法 指定隱藏神經元與輸入和輸出神經元的比例。 下列公式會決定隱藏層中神經元的初始數目:

HIDDEN_NODE_RATIO * SQRT(總輸入神經元 * 總輸出神經元)

預設值為 4.0。
歷史模型數量 Microsoft時間序列演算法 指定要建置的歷史模型數目。

預設值為 1。
歷史模型差距 Microsoft時間序列演算法 指定兩個連續歷史模型之間的時間延遲。 例如,將此值設定為 g 會用於針對以 g、2*g、3*g 等間隔的時間片段截斷的數據建立歷史模型。

預設值為 10。
保留比例 Microsoft羅吉斯回歸演算法

Microsoft類神經網路演算法
指定訓練數據中用於計算驗證錯誤的案例百分比,作為訓練採礦模型時停止準則的一部分。

預設值為 30。

注意:此參數與應用於採礦結構的保留百分比值不同。
保留種子 Microsoft羅吉斯回歸演算法

Microsoft類神經網路演算法
指定用於設定偽隨機生成器的種子數字,以在演算法隨機確定保留數據時使用。 如果此參數設定為 0,演算法會根據採礦模型的名稱產生種子,以確保在重新處理期間模型內容保持不變。

預設值為 0。

注意:此參數與應用於採礦結構的留存種子值不同。
不穩定性敏感度 Microsoft時間序列演算法 控制預測變數超過特定閾值的點,ARTxp 演算法會抑制預測。 預設值為 1。

注意:此參數僅適用於使用ARTxp演算法的混合模型或模型。
最大輸入屬性 Microsoft叢集演算法

Microsoft判定樹演算法

Microsoft線性回歸演算法

Microsoft天真貝氏分類演算法

Microsoft類神經網路演算法

Microsoft羅吉斯回歸演算法
定義演算法在叫用特徵選取之前可以處理的輸入屬性數目。 將此值設定為 0 以關閉特徵選取。

預設值為 255。
最大項目集數量 Microsoft關聯演算法 指定要產生的項目集數目上限。 如果未指定任何數字,演算法會產生所有可能的項目集。

預設值為 200000。
最大項集大小 Microsoft關聯演算法 指定專案集中允許的項目數目上限。 將此值設定為 0 會指定專案集的大小沒有限制。

預設值為 3。
最大輸出屬性 Microsoft判定樹演算法

Microsoft線性回歸演算法

Microsoft羅吉斯回歸演算法

Microsoft天真貝氏分類演算法

Microsoft類神經網路演算法
定義演算法在叫用特徵選取之前可以處理的輸出屬性數目。 將此值設定為 0 以關閉特徵選取。

預設值為 255。
最大序列狀態 Microsoft時序群集演算法 指定序列可以擁有的最大狀態數目。 將此值設定為大於 100 的數位,可能會導致演算法建立未提供有意義資訊的模型。

預設值為 64。
最大序列值 Microsoft時間序列演算法 指定要用於預測的最大值。 此參數會與MINIMUM_SERIES_VALUE一起使用,將預測限製為一些預期的範圍。 例如,您可以指定任何一天的預測銷售數量不應超過庫存中的產品數目。
最大狀態 Microsoft叢集演算法

Microsoft類神經網路演算法

Microsoft時序群集演算法
指定演算法所支援的屬性狀態數目上限。 如果屬性的狀態數目大於狀態數目上限,則演算法會使用屬性最受歡迎的狀態,並忽略其餘狀態。

預設值為 100。
最大支援 Microsoft關聯演算法 指定專案集可支援的最大案例數目。 如果此值小於 1,則值代表總案例的百分比。 如果此值大於 1,則值代表可以包含專案集的絕對案例數目。

預設值為 1。
最低重要性 Microsoft關聯演算法 指定關聯規則的重要性閾值。 重要性小於此值的規則會篩選掉。
最小項目集大小 Microsoft關聯演算法 指定專案集中允許的項目數目下限。

預設值為 1。
最低依賴機率 Microsoft天真貝氏分類演算法 指定輸入和輸出屬性之間的最小相依性機率。 這個值用來限制演算法所產生的內容大小。 這個屬性可以從 0 設定為 1。 較大的值會減少模型內容中的屬性數目。

預設值為 0.5。
最低概率 Microsoft關聯演算法 指定規則為 true 的最小機率。 例如,將此值設定為 0.5 會指定不會產生小於 50% 機率的規則。

預設值為 0.4。
最小序列值 Microsoft時間序列演算法 設置任何時間序列預測的下限約束。 預測值永遠不會小於此條件約束。
最低支援 Microsoft關聯演算法 指定在演算法生成規則之前,必須包含項目集的最小案例數。 將此值設定為小於 1,會將案例數目下限指定為案例總數的百分比。 將此值設定為大於 1 的整數,會將最小案例數目指定為必須包含專案集的絕對案例數目。 如果記憶體有限,演算法可能會增加此參數的值。

預設值為 0.03。
最低支援 Microsoft叢集演算法 指定每個叢集中的最小案例數目。

預設值為 1。
最低支援 Microsoft判定樹演算法 決定在決策樹中生成拆分所需的最小分葉案例數目。

預設值為 10。
最低支援 Microsoft時序群集演算法 指定每個叢集中的最小案例數目。

預設值為 10。
最低支援 Microsoft時間序列演算法 指定在每一個時間序列樹中產生分割所需的最小時間片段數目。

預設值為 10。
缺失值替代 Microsoft時間序列演算法 指定用來填滿歷程記錄數據間距的方法。 依照預設設定,數據中不允許出現不規則的間距或鋸齒狀的邊緣。 下列方法可用來填入不規則的間距或邊緣:使用先前的值、使用平均值,或使用特定的數值常數。
建模基數 Microsoft叢集演算法 指定叢集程式期間建構的範例模型數目。

預設值為 10。
週期性提示 Microsoft時間序列演算法 提供演算法提示,以理解數據的週期性。 例如,如果銷售額依年份而有所不同,而數列中的度量單位是月份,則週期性為 12。 此參數採用 {n [, n]} 的格式,其中 n 是任何正數。 括弧 [] 內的 n 是選擇性的,可以視需要重複。

預設值為 {1}。
預測平滑 (PREDICTION_SMOOTHING) Microsoft時間序列演算法 控制 ARTXP 和 ARIMA 時間序列演算法的混合。 只有當FORECAST_METHOD參數設定為MIXED時,指定的值才有效。 值必須介於 0 到 1 之間。 如果值為 0,則模型只會使用 ARTXP。 如果值為 1,則模型只會使用 ARIMA。 接近 0 的值較重於 ARTXP。 越接近 1 的值,越偏重於 ARIMA。
樣本大小 Microsoft叢集演算法 如果CLUSTERING_METHOD參數設定為其中一個可調整的叢集方法,則指定演算法在每個傳遞上使用的案例數目。 將 SAMPLE_SIZE 參數設定為 0 會導致整個數據集在單一傳遞中叢集。 這可能會導致記憶體和效能問題。

預設值為 50000。
樣本大小 Microsoft羅吉斯回歸演算法

Microsoft類神經網路演算法
指定要用來定型模型的案例數目。 演算法提供者會使用這個數位或未包含在HOLDOUT_PERCENTAGE參數所指定之鑒效組百分比中之案例總數的百分比,以較小的值為準。

換句話說,如果HOLDOUT_PERCENTAGE設定為 30,則演算法會使用此參數的值,或等於案例總數的 70% 的值,無論哪一個較小。

預設值為 10000。
評分方法 Microsoft判定樹演算法 決定用來計算分割分數的方法。 下列選項可供使用:(1)熵、(2)K2 先驗下的貝氏,或 (3)貝氏迪里希萊特等價先驗(BDE 先驗)。

預設值為 3。
分割方法 Microsoft判定樹演算法 決定用來分割節點的方法。 下列選項可供使用:二進位 (1)、完成 (2)或兩者 (3)。

預設值為 3。
停止公差 Microsoft叢集演算法技術參考 指定值,用來判斷何時達到聚合,且演算法完成建置模型。 當叢集機率的整體變更小於除以模型大小之STOPPING_TOLERANCE參數的比例時,就會達到聚合。

預設值為 10。

評論

如需演算法的其他詳細數據,請參閱《SQL Server 在線叢書》。

另請參閱

資料探勘演算法 (SQL Server 資料探勘增益集)