使用 Excel 表分析工具执行数据挖掘时,无需配置数据挖掘算法或参数;每个工具都会分析数据,并自动选择最佳参数。 但是,如果要修改模型或从头开始创建挖掘模型,则 Excel 数据挖掘客户端提供了多个自定义选项。
手动创建数据挖掘模型,方法是单击“ 高级 ”,然后单击“ 将模型添加到结构”。
使用数据挖掘客户端中的任何建模向导,然后单击“ 参数 ”来控制Microsoft数据挖掘算法的行为。
单击 “查询 ”以打开“查询模型”向导,然后单击“ 高级 ”以打开 “数据挖掘高级查询编辑器”。 在此编辑器中,可以使用 DMX 模板生成模型。
还可以修改已创建的挖掘模型的行为,也可以通过在挖掘模型查看器中设置参数来筛选结果。
算法参数列表
可以通过设置参数自定义所有Microsoft算法。 由于最佳参数设置取决于数据的组合,因此更改参数的效果的完整说明超出了本主题的范围。
下表列出了这些参数、描述其功能,并提供指向更多技术信息的链接。
| 参数名称 | 在 | DESCRIPTION |
|---|---|---|
| 自动检测周期性 | Microsoft时序算法 | 指定介于 0 和 1 之间的数值,该值用于检测周期性。 将此值设置为更接近 1 有利于发现许多近周期模式和自动生成周期提示。 处理许多周期性提示可能会导致显著更长的模型训练时间,并且提高模型的准确性。 如果该值接近 0,则仅针对强周期数据检测到周期性。 默认值为 0.6。 |
| 聚类计数 | Microsoft聚类分析算法 Microsoft序列聚类分析算法 |
指定要由算法生成的大致群集数。 如果无法从数据生成近似的群集数,算法将生成尽可能多的聚类。 将CLUSTER_COUNT设置为 0 会导致算法使用启发法来最好地确定要生成的群集数。 默认值是10。 |
| 聚类种子 | Microsoft聚类分析算法 | 指定用于为模型生成的初始阶段随机生成群集的种子编号。 默认值为 0。 |
| 聚类方法 | Microsoft聚类分析算法 | 指定要使用的算法的聚类分析方法。 以下聚类方法可用:扩展性 EM (1)、非扩展性 EM (2)、扩展性 K-Means (3)和非扩展性 K-Means (4)。 默认值为 1。 |
| 复杂性惩罚 | Microsoft决策树算法 Microsoft时序算法 |
控制决策树的增长。 低值会增加拆分数,而高值会减少拆分数。 默认值基于特定模型的属性数,如以下列表所述: 对于 1 到 9 个属性,默认值为 0.5。 对于 10 到 99 个属性,默认值为 0.9。 对于 100 个或多个属性,默认值为 0.99。 注意:在时序模型中,此参数仅适用于使用 ARTxp 算法或混合模型生成的模型。 |
| FORCED_REGRESSOR | Microsoft决策树算法 Microsoft线性回归算法 |
强制算法将指示列用作回归器,而不考虑算法计算的列的重要性。 注意:此参数仅用于预测连续属性的决策树。 根据定义,线性回归模型是预测连续属性的决策树的特殊情况。 但是,任何决策树模型都可以包含表示线性回归公式的节点。 |
| FORECAST_METHOD | Microsoft时序算法 | 指示是否应使用 ARTxp 算法、ARIMA 算法或两者的组合进行预测。 默认值为 MIXED。 |
| 隐藏节点比率 (HIDDEN_NODE_RATIO) | Microsoft神经网络算法 | 指定隐藏神经元与输入和输出神经元的比例。 以下公式确定隐藏层中神经元的初始数量: HIDDEN_NODE_RATIO * SQRT(总输入神经元 * 总输出神经元) 默认值为 4.0。 |
| 历史模型计数 | Microsoft时序算法 | 指定要生成的历史模型数。 默认值为 1。 |
| 历史模型差距 | Microsoft时序算法 | 指定两个连续历史模型之间的时间滞后。 例如,将此值设置为 g 会导致为按 g、2*g、3*g 等间隔被时间切片截断的数据生成历史模型。 默认值是10。 |
| 保留百分比 | Microsoft逻辑回归算法 Microsoft神经网络算法 |
指定用于计算留出误差的训练数据中事例的百分比,该误差在训练挖掘模型时用作停止条件的一部分。 默认值为 30。 注意:此参数不同于适用于挖掘结构的保留百分比值。 |
| HOLDOUT_SEED | Microsoft逻辑回归算法 Microsoft神经网络算法 |
指定一个数字,该数字用于在算法随机确定保留数据时对伪随机生成器进行种子设定。 如果此参数设置为 0,则算法会根据挖掘模型的名称生成种子,以确保在重新处理期间模型内容保持不变。 默认值为 0。 注意:此参数与适用于挖掘结构的保留种子值不同。 |
| 不稳定性灵敏度 | Microsoft时序算法 | 控制预测方差超过特定阈值的点,ARTxp 算法抑制预测。 默认值为 1。 注意:此参数仅适用于使用 ARTxp 算法的混合模型或模型。 |
| 最大输入属性 | Microsoft聚类分析算法 Microsoft决策树算法 Microsoft线性回归算法 Microsoft Naïve Bayes 算法 Microsoft神经网络算法 Microsoft逻辑回归算法 |
定义算法在调用功能选择之前可以处理的输入属性数。 将此值设置为 0 以关闭功能选择。 默认值为 255。 |
| 最大项集数量 (MAXIMUM_ITEMSET_COUNT) | Microsoft关联算法 | 指定要生成的项集的最大数目。 如果未指定数字,该算法将生成所有可能的项集。 默认值为 200000。 |
| MAXIMUM_ITEMSET_SIZE(最大项集大小) | Microsoft关联算法 | 指定项集中允许的最大项数。 将此值设置为 0 指定项集的大小没有限制。 默认值是3。 |
| 最大输出属性 | Microsoft决策树算法 Microsoft线性回归算法 Microsoft逻辑回归算法 Microsoft Naïve Bayes 算法 Microsoft神经网络算法 |
定义算法在调用功能选择之前可以处理的输出属性数。 将此值设置为 0 以关闭功能选择。 默认值为 255。 |
| 最大序列状态 | Microsoft序列聚类分析算法 | 指定序列可以具有的最大状态数。 将此值设置为大于 100 的数字可能会导致算法创建不提供有意义的信息的模型。 默认值为 64。 |
| 最大系列值 | Microsoft时序算法 | 指定要用于预测的最大值。 此参数与MINIMUM_SERIES_VALUE一起使用,将预测限制为一些预期范围。 例如,可以指定任何一天的预测销售数量不应超过库存中的产品数量。 |
| 最大状态数 | Microsoft聚类分析算法 Microsoft神经网络算法 Microsoft序列聚类分析算法 |
指定算法支持的最大属性状态数。 如果属性的状态数大于最大状态数,该算法将使用该属性的最常见状态并忽略剩余状态。 默认值为 100。 |
| 最大支持 | Microsoft关联算法 | 指定项集可以支持的最大事例数。 如果此值小于 1,则该值表示总事例的百分比。 如果此值大于 1,则该值表示可以包含项集的事例的绝对数。 默认值为 1。 |
| 最低重要性 | Microsoft关联算法 | 指定关联规则的重要性阈值。 筛选出重要性小于此值的规则。 |
| 最小项集大小 | Microsoft关联算法 | 指定项集中允许的最小项数。 默认值为 1。 |
| 最小依赖概率 | Microsoft Naïve Bayes 算法 | 指定输入和输出属性之间的最小依赖关系概率。 此值用于限制算法生成的内容的大小。 此属性可以设置为 0 到 1。 较大的值可减少模型内容中的属性数。 默认值为 0.5。 |
| 最小概率 | Microsoft关联算法 | 指定规则为 true 的最小概率。 例如,将此值设置为 0.5 指定不会生成小于 50% 概率的规则。 默认值为 0.4。 |
| 系列最小值 | Microsoft时序算法 | 指定任何时间序列预测的最低限制。 预测值永远不会小于此约束。 |
| MINIMUM_SUPPORT | Microsoft关联算法 | 指定在算法生成规则之前,案例中必须包含该项集的最少数量。 将此值设置为小于 1 将最小事例数指定为总事例的百分比。 将此值设置为大于 1 的整数将最小事例数指定为必须包含项集的绝对事例数。 如果内存有限,算法可能会增加此参数的值。 默认值为 0.03。 |
| 最低支持 | Microsoft聚类分析算法 | 指定每个群集中的最小事例数。 默认值为 1。 |
| 最低支持 | Microsoft决策树算法 | 确定在决策树中生成拆分所需的最小叶事例数。 默认值是10。 |
| 最低支持 | Microsoft序列聚类分析算法 | 指定每个群集中的最小事例数。 默认值是10。 |
| 最小支持 | Microsoft时序算法 | 指定在每个时序树中生成拆分所需的最小时间切片数。 默认值是10。 |
| MISSING_VALUE_SUBSTITUTION | Microsoft时序算法 | 指定用于填补历史数据空白的方法。 默认情况下,不允许数据中的不规则间隙或不规则边缘。 以下方法可用于填充不规则的间隙或边缘:使用以前的值、使用平均值或使用特定的数值常量。 |
| 建模基数 | Microsoft聚类分析算法 | 指定在聚类分析过程中构造的示例模型数。 默认值是10。 |
| 周期性提示 | Microsoft时序算法 | 向算法提供有关数据的周期性的提示。 例如,如果销售额因年份而异,并且序列中的度量单位为月,则周期为 12。 此参数采用 {n [, n]} 的格式,其中 n 为任意正数。 括号 [] 中的 n 是可选的,可以根据需要频繁重复。 默认值为 {1}。 |
| 预测平滑 | Microsoft时序算法 | 控制 ARTXP 和 ARIMA 时序算法的混合。 仅当FORECAST_METHOD参数设置为 MIXED 时,指定的值才有效。 值必须介于 0 和 1 之间。 如果值为 0,则模型仅使用 ARTXP。 如果值为 1,则模型仅使用 ARIMA。 接近 0 的值更重于 ARTXP。 接近 1 的值赋予更大的权重给 ARIMA。 |
| SAMPLE_SIZE | Microsoft聚类分析算法 | 指定当CLUSTERING_METHOD参数设置为可扩展聚类方法之一时,算法在每次处理时使用的实例数。 将SAMPLE_SIZE参数设置为 0 将导致整个数据集在单个传递中聚集。 这可能会导致内存和性能问题。 默认值为 50000。 |
| 样本大小 | Microsoft逻辑回归算法 Microsoft神经网络算法 |
指定要用于训练模型的事例数。 算法提供程序使用此数字或未包含在由HOLDOUT_PERCENTAGE参数指定的保留百分比中的事例总数的百分比,两者取较小值。 换句话说,如果HOLDOUT_PERCENTAGE设置为 30,则算法将使用此参数的值,或等于事例总数的 70% 的值(以较小者为准)。 默认值为 10000。 |
| 评分方法 | Microsoft决策树算法 | 确定用于计算拆分分数的方法。 可以使用以下选项:(1)熵,(2)具有K2先验的贝叶斯,或(3)贝叶斯Dirichlet等价(BDE)先验。 默认值是3。 |
| 分割方法 | Microsoft决策树算法 | 确定用于拆分节点的方法。 以下选项可用:二进制(1)、完成(2)或两者(3)。 默认值是3。 |
| 停止容差 | Microsoft 聚类算法技术参考文档 | 指定用于确定何时达到收敛且算法完成生成模型的值。 当聚类概率的总体变化小于除以模型大小的STOPPING_TOLERANCE参数的比例时,将达到收敛。 默认值是10。 |
注释
有关算法的其他详细信息,请参阅 SQL Server 联机丛书。