交叉验证 (SQL Server 数据挖掘加载项)

交叉验证按钮、数据挖掘功能区

交叉验证是分析中的标准工具,是帮助你开发和微调数据挖掘模型的重要功能。 创建挖掘模型后,可以使用交叉验证来确定模型的有效性,并将其结果与其他相关的挖掘模型进行比较。

交叉验证由两个阶段组成:训练和报告生成。 你将完成以下步骤:

  • 选择目标挖掘结构或挖掘模型。

  • 指定目标值(如果适用)。

  • 指定结构数据分区所需的跨节数或 折叠数。

然后 ,交叉验证 向导在每个折叠上创建新模型,在其他折叠上测试模型,然后报告模型的准确性。 完成后,交叉验证向导将创建一个报告,该报告显示每个折的指标,并提供总体模型的汇总。 此信息可用于确定基础数据对模型有多好,或比较基于相同数据构建的不同模型。

使用交叉验证向导

可以对存储在 Analysis Services 实例上的临时模型和模型使用交叉验证。

创建交叉验证报告

  1. 数据挖掘功能区的“准确性和验证”组中,单击“交叉验证”。

  2. “选择结构或模型 ”对话框中,选择现有的挖掘结构或挖掘模型。 如果选择结构,向导将针对基于具有相同可预测属性的结构的所有模型使用交叉验证。 如果选择模型,向导将仅对该模型使用交叉验证。

  3. 在“ 指定交叉验证参数 ”对话框中的 “折叠计数 ”框中,选择要在其中划分数据集的折叠数。 折叠是随机选择的数据交叉部分。

  4. (可选)通过在“ 最大行 数”文本框中键入数字来设置在交叉验证中使用的最大行数。

    注释

    使用的行越多,结果就越准确。 但是,处理时间也可能显著增加。 你选择的数字取决于你的数据,但一般情况下,你应该选择最高的数字,你无需牺牲性能。 为了提高性能,还可以减少折叠次数。

  5. “目标属性” 下拉列表中选择一列。 该列表仅显示最初创建模型时配置为可预测属性的列。 模型可能包含多个可预测属性,但只能选择一个属性。

  6. “目标状态 ”下拉列表中选择一个值。

    如果可预测列包含连续数值数据,则此选项不可用。

  7. (可选)指定要用作“ 目标阈值” 的值,以准确计算预测。 此值表示为概率,即介于 0 和 1 之间的数字,其中 1 表示预测保证准确,0 表示预测没有正确的可能性,而 .5 与随机猜测相同。

    如果可预测列包含连续数值数据,则此选项不可用。

  8. 单击“完成”。 将创建名为 “交叉验证”的新工作表。

    注释

    Microsoft Excel 在将模型划分为多个折叠并测试每个折叠时,可能会暂时无响应。

要求

若要创建交叉验证报表,必须已创建数据挖掘结构和相关模型。 向导提供了一个对话框,用于帮助你从现有结构和模型中进行选择。

如果选择支持多个挖掘模型的挖掘结构,并且模型使用不同的可预测属性,则交叉验证向导将仅测试共享相同可预测属性的那些模型。

如果选择支持聚类分析模型和其他类型的模型的结构,则不会测试聚类分析模型。

了解交叉验证结果

交叉验证的结果显示在新的工作表中,标题为交叉验证报告<属性名称>。 新工作表包含多个部分:第一节是一个摘要,其中包含有关已测试的模型的重要元数据,以便你可以知道结果适用于哪个模型或结构。

报表中的第二部分提供了一个统计摘要,指示原始模型有多好。 在此摘要中,针对三个关键度量值分析了为每个折叠创建的模型之间的差异: 根平均平方误差平均绝对误差日志分数。 这些是标准统计度量值,不仅用于数据挖掘,而且用于大多数类型的统计分析。

对于每个度量值,交叉验证向导将在整个模型中计算平均值和标准偏差。 这说明模型在对数据的不同子集进行预测时有多么一致。 例如,如果标准偏差非常大,则表示为每个折叠创建的模型的结果非常不同,因此该模型可能已对特定数据组进行过密切的训练,并且不适用于其他数据集。

以下部分介绍用于评估模型的度量值。

测试和测量

除了有关数据中折叠数以及每个折叠中的数据量的基本信息外,工作表还显示一组有关每个模型(按测试类型分类)的指标。 例如,聚类模型的准确性是通过不同的测试进行评估,而这些测试与用于预测模型的测试不同。

下表列出了测试和指标,并说明了指标的含义。

聚合和一般统计度量值

该报告中提供的聚合度量显示您在数据中创建的折叠之间的差异。

  • 平均值和标准偏差。

  • 模型中所有分区的特定度量值偏离均值的平均值。

分类:通过/失败

如果未为可预测属性指定目标值,则会在分类模型中使用此度量值。 例如,如果你创建一个预测多个可能性的模型,这个度量值会告知你模型在预测所有可能值时的表现。

通过计数满足以下条件的事例来计算传递/失败:如果具有最高概率的预测状态与输入状态相同,并且概率大于为状态阈值指定的值,则传递:否则,将失败

分类:真或假正例和反例

此测试用于具有指定目标的所有分类模型。 该度量值指示如何对每个事例进行分类以响应这些问题:模型预测的内容以及实际结果是什么。

度量值 DESCRIPTION
真正 满足这些条件的事件计数:

事例包含目标值。

模型预测该事例包含目标值。
假正 满足这些条件的事件计数:

实际值等于目标值。

模型预测该事例包含目标值。
真负 满足这些条件的事件计数:

案例不包含目标值。

模型预测该案例不包含目标值。
假阴性 满足这些条件的事件计数:

实际值不等于目标值。

模型预测该案例不包含目标值。

电梯

提升 是与可能性关联的度量值。 如果在使用模型时的结果比进行随机猜测时更有可能,则表示该模型提供 正提升。 但是,如果模型做出的预测的可能性小于随机机会,提升分数为 数。 因此,此指标指示可以使用模型实现的改进量,其中分数越高越好。

提升度计算为实际预测概率与测试样例中边际概率的比率。

日志分数

对数评分(也称为预测的对数似然评分)表示两个概率之间的比率,并转换为对数尺度。 由于概率表示为十进制分数,因此对数分数始终为负数。 接近 0 的分数是更好的分数。

虽然原始分数的分布非常不规则或偏斜,但日志分数类似于百分比。

根平均平方误差

根平均平方误差 (RMSE)是统计信息中的一种标准方法,用于查看不同数据集的比较方式,并平滑化输入规模可以引入的差异。

RMSE 表示与实际值进行比较时预测值的平均误差。 它被计算为所有分区事例平均误差的平方根,除以分区中事例的个数,不包括目标属性缺失的行。

平均绝对误差

平均绝对误差是预测值到实际值的平均误差。 它通过获取错误的绝对总和并找到这些错误的平均值来计算。

此值可帮助你了解分数与平均值的差别。

案例可能性

此度量值仅用于聚类分析模型,并指示新事例是否属于特定分类。

在聚类分析模型中,有两种类型的群集成员身份,具体取决于用于创建模型的方法。 在某些模型中,根据 K 平均值算法,新事例应只属于一个群集。 但是,默认情况下,Microsoft聚类分析算法使用“期望最大化”方法,该方法假定新事例可能属于任何群集。 因此,在这些模型中,事例可以有多个 CaseLikelihood 值,但默认情况下报告的事例是属于与新事例最匹配的群集的情况的可能性。

另请参阅

验证模型和使用用于预测的模型(适用于 Excel 的数据挖掘加载项)