生成交叉验证报表时,它包含每个模型的准确性度量值,具体取决于挖掘模型的类型(即用于创建模型的算法)、可预测属性的数据类型以及可预测属性值(如果有)。
本部分列出了交叉验证报表中使用的度量值,并介绍了计算方法。
有关按模型类型划分的准确性度量值的细分,请参阅 交叉验证报告中的度量值。
用于交叉验证度量值的公式
注释
重要: 这些准确度的度量都计算于每个目标属性。 对于每个属性,可以指定或省略目标值。 如果数据集中的事例没有目标属性的任何值,则事例被视为具有名为 缺失值的特殊值。 计算特定目标属性的准确性度量值时,不计算缺失值的行。 请注意,由于为每个属性单独计算分数,如果目标属性存在值但其他属性缺失,则不会影响目标属性的分数。
| 度量值 | 应用到 | 执行 |
|---|---|---|
| 真正阳性 | 离散属性的值已被指定 | 满足这些条件的事件计数: 事例包含目标值。 模型预测该事例包含目标值。 |
| 真阴性 | 离散属性和值已指定 | 满足下列条件的案例数: 案例不包含目标值。 模型预测该案例不包含目标值。 |
| 误报 | 离散属性已指定,值已确定 | 满足以下条件的案例数量: 实际值等于目标值。 模型预测该实例包含目标值。 |
| 假阴性 | 离散属性的值已被指定 | 符合以下条件的案例计数: 实际值不等于目标值。 模型预测该案例不包含目标值。 |
| 通过/未通过 | 离散属性,未指定目标 | 符合以下条件的案例计数: 如果具有最高概率的预测状态与输入状态相同,并且概率大于 状态阈值的值,则传递。 否则,将失败。 |
| 电梯 | 离散属性。 可以指定目标值,但不是必需的。 | 所有带有目标属性值的行的平均对数似然度,其中每个事例的对数似然度计算为 Log(ActualProbability/MarginalProbability)。 若要计算平均值,日志可能性值的总和除以输入数据集中的行数,不包括目标属性缺少值的行。 升力可以是负值或正值。 正值表示一个优于随机猜测的有效模型。 |
| 日志分数 | 离散属性。 可以指定目标值,但不是必需的。 | 每个案例的实际概率的对数求和,然后除以输入数据集中有目标属性值的行数,不包括目标属性缺失值的行。 由于概率表示为十进制分数,因此日志分数始终为负数。 接近 0 的分数是更好的分数。 |
| 案例可能性 | 集群 | 所有事例的分类可能性分数的总和,除以分区中的事例数,不包括包含目标属性缺失值的行。 |
| 平均绝对误差 | 连续属性 | 分区中所有事例的绝对误差总和,除以分区中的事例数。 |
| 根平均平方误差 | 连续属性 | 分区平均平方误差的平方根。 |
| 均方根误差 | 离散属性。 可以指定目标值,但不是必需的。 | 概率分数补数的平方均值的平方根,除以分区中的样本数,不包括目标属性有缺失值的行。 |
| 均方根误差 | 离散属性,未指定目标。 | 概率分数补数的平方的平方根,除以分区中的事例数,不包括目标属性缺失值的事例。 |