交叉验证公式

生成交叉验证报表时,它包含每个模型的准确性度量值,具体取决于挖掘模型的类型(即用于创建模型的算法)、可预测属性的数据类型以及可预测属性值(如果有)。

本部分列出了交叉验证报表中使用的度量值,并介绍了计算方法。

有关按模型类型划分的准确性度量值的细分,请参阅 交叉验证报告中的度量值

用于交叉验证度量值的公式

注释

重要: 这些准确度的度量都计算于每个目标属性。 对于每个属性,可以指定或省略目标值。 如果数据集中的事例没有目标属性的任何值,则事例被视为具有名为 缺失值的特殊值。 计算特定目标属性的准确性度量值时,不计算缺失值的行。 请注意,由于为每个属性单独计算分数,如果目标属性存在值但其他属性缺失,则不会影响目标属性的分数。

度量值 应用到 执行
真正阳性 离散属性的值已被指定 满足这些条件的事件计数:

事例包含目标值。

模型预测该事例包含目标值。
真阴性 离散属性和值已指定 满足下列条件的案例数:

案例不包含目标值。

模型预测该案例不包含目标值。
误报 离散属性已指定,值已确定 满足以下条件的案例数量:

实际值等于目标值。

模型预测该实例包含目标值。
假阴性 离散属性的值已被指定 符合以下条件的案例计数:

实际值不等于目标值。

模型预测该案例不包含目标值。
通过/未通过 离散属性,未指定目标 符合以下条件的案例计数:

如果具有最高概率的预测状态与输入状态相同,并且概率大于 状态阈值的值,则传递。

否则,将失败。
电梯 离散属性。 可以指定目标值,但不是必需的。 所有带有目标属性值的行的平均对数似然度,其中每个事例的对数似然度计算为 Log(ActualProbability/MarginalProbability)。 若要计算平均值,日志可能性值的总和除以输入数据集中的行数,不包括目标属性缺少值的行。

升力可以是负值或正值。 正值表示一个优于随机猜测的有效模型。
日志分数 离散属性。 可以指定目标值,但不是必需的。 每个案例的实际概率的对数求和,然后除以输入数据集中有目标属性值的行数,不包括目标属性缺失值的行。

由于概率表示为十进制分数,因此日志分数始终为负数。 接近 0 的分数是更好的分数。
案例可能性 集群 所有事例的分类可能性分数的总和,除以分区中的事例数,不包括包含目标属性缺失值的行。
平均绝对误差 连续属性 分区中所有事例的绝对误差总和,除以分区中的事例数。
根平均平方误差 连续属性 分区平均平方误差的平方根。
均方根误差 离散属性。 可以指定目标值,但不是必需的。 概率分数补数的平方均值的平方根,除以分区中的样本数,不包括目标属性有缺失值的行。
均方根误差 离散属性,未指定目标。 概率分数补数的平方的平方根,除以分区中的事例数,不包括目标属性缺失值的事例。

另请参阅

测试和验证 (数据挖掘)
交叉验证 (Analysis Services - 数据挖掘)