你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

评估指标

数据集分为两部分:一组用于训练,一组用于测试。 训练集用于训练模型,而测试集用作训练后的模型测试,以计算模型性能和评估。 测试集不会通过训练过程引入到模型中,以确保模型在新数据上进行测试。

成功完成训练后,将自动触发模型评估。 评估过程首先使用经过训练的模型预测测试集内文档的用户定义类,并将其与提供的数据标记进行比较(这将建立真实的基线)。 返回结果,以便可以查看模型的性能。 对于评估,自定义文本分类使用以下指标:

  • 精准率:度量模型的精确度/准确度。 它是正确识别的正值(真正)与所有识别出的正值之间的比率。 精准率指标指示正确标记了多少个预测类。

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • 召回率:度量模型预测实际正类的能力。 它是预测的真正值与标记的结果之间的比率。 召回率指标显示正确的预测类的数量。

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F1 分数:F1 分数是精准率和召回率的函数。 在精度和召回之间寻求平衡时需要。

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

注意

准确率、召回率和 F1 值分别为每个类别进行计算(类级评估)以及为整个模型集体进行计算(模型级评估)。

模型级和类级的评估指标

对于类级和模型级评估,精准率、召回率和计算的定义是相同的。 但是,真正、假正和假负的计数不同,如下例所示。

下列部分使用以下示例数据集:

Document 实际类 预测类
1 action、comedy 喜剧
2 操作 操作
3 浪漫 浪漫
4 romance、comedy 浪漫
5 喜剧 操作

action 类的类级评估

密钥 Count 说明
真正 1 文档 2 已正确分类为 action
假正 1 文档 5 已错误分类为 action
假负 1 文档 1 本应被分类为 “行动”,但却未分类。

精准率 = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 分数 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

comedy 类的类级评估

密钥 Count 说明
真正 1 文档 1 已正确分类为 comedy
假正 0 未将任何文档错误地分类为 comedy
假负 2 尽管文档 5 和 4 应分类为 comedy,但它们没有

精准率 = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 2) = 0.33

F1 分数 = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.67) / (1 + 0.67) = 0.80

对整体模型进行模型级评估

密钥 Count 说明
真正 4 文档 1、2、3 和 4 在预测时被正确分类为相应的类别。
假正 1 在预测时,文档 5 被分配到了一个错误的类别。
假负 2 文档 1 和 4 在预测时未被完全正确分类。

精准率 = #True_Positive / (#True_Positive + #False_Positive) = 4 / (4 + 1) = 0.8

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 4 / (4 + 2) = 0.67

F1 分数 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.8 * 0.67) / (0.8 + 0.67) = 0.73

注意

对于单标签分类模型,假负数和误报数始终相等。 自定义单标签分类模型始终预测每个文档的一个类。 如果预测不正确,FP 预测类的计数增加一,FN 实际类的计数增加一,而模型的总体计数 FPFN 始终保持相等。 多标签分类的情况并非如此,因为未能预测出文档的某个类别会被计为假阴性。

解释类级评估指标

那么,对于某个类来说,具有高精准率或高召回率实际上意味着什么?

召回率 精准率 解释
模型已成功处理类别指定。
模型不能始终预测此类,但在执行此类时,它会具有高置信度。 此评估可能是因为此类在数据集中未被充分代表,因此请考虑平衡数据分布。
模型对这一类的预测很好,但是置信度较低。 可能是由于数据集中的类过度表示,因此请考虑平衡数据分布。
模型在缺乏高置信度的情况下,对这一类的处理质量很差。

自定义文本分类模型预计会同时遇到假负和假正。 需要考虑每个系统如何影响整个系统。 仔细考虑模型忽略正确预测并识别错误预测的情况。 根据你的方案,精准率或召回率可能更适合评估模型的性能。

例如,如果你的方案涉及处理技术支持票,则预测错误类可能会导致将其转发给错误的部门/团队。 在此示例中,应考虑让你的系统对假正更敏感,并且精准率将是一个更相关的评估指标。

另一个示例是,如果你的方案涉及将电子邮件分类为“重要”或“垃圾邮件”,则错误预测可能会导致你在标记为“垃圾邮件”时错过有用的电子邮件。但是,如果垃圾邮件标记为 重要 ,则可以忽略它。 在此示例中,应考虑让你的系统对假负更敏感,召回率将是一个更相关的评估指标。

如果要针对常规用途方案进行优化,或者当精准率和召回率都很重要时,可以使用 F1 分数。 评估分数是主观的,具体取决于你的场景和验收条件。 没有适用于所有方案的绝对指标。

指南

训练模型后,可以查看有关如何改进模型的一些指导和建议。 建议在指南部分中设置涵盖所有点的模型。

  • 训练集具有足够的数据:训练数据中具有少于 15 个标记实例的类类型可能会导致准确性降低,因为模型在事例上训练不足。

  • 测试集中存在所有类类型:当测试数据缺少类类型的标记实例时,由于未测试的方案,模型的测试性能可能会变得不那么全面。

  • 类类型在定型和测试集内平衡:当采样偏差导致类类型频率的不准确表示时,可能会导致准确性降低,因为模型期望该类类型发生得太频繁或太少。

  • 类类型在训练集和测试集之间均匀分布:当类类型的混合在训练集和测试集之间不匹配时,可能会导致测试准确性降低,因为模型在训练方式与测试方式不同。

  • 训练集中的类类型明显不同:多个类类型的训练数据相似时,由于类类型可能经常被错误分类为彼此,可能会导致准确性降低。

混淆矩阵

重要说明

混淆矩阵不适用于多标签分类项目。 混淆矩阵是用于模型性能评估的 N x N 矩阵,其中 N 是类数目。 该矩阵将预期标签与模型预测的标签进行比较。 这为模型的性能以及它所犯的错误类型提供了整体视图。

可以使用混淆矩阵来识别彼此之间过于接近且经常被弄错(歧义)的类。 在这种情况下,请考虑将这些类合并在一起。 如果无法做到这一点,请考虑使用这两个类标记更多文档,以帮助模型区分它们。

所有正确的预测都位于表的对角线中,因此可以轻松直观地检查表是否有预测错误。

混淆矩阵示例的屏幕截图。

可以根据混淆矩阵计算类级别和模型级别的评估指标:

  • 对角线的值是每个类的真正值
  • 类行中值的总和(不包括对角线)是模型的假正值
  • 类列中值的总和(不包括对角线)是模型的假负值

同样,

  • 模型的真正值是所有类的真正值的总和
  • 模型的假正值是所有类的假正值的总和
  • 模型的假负值是所有类的假负值的总和

Next steps