你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

评估指标

数据集分为两部分：一组用于训练，一组用于测试。训练集用于训练模型，而测试集用作训练后的模型测试，以计算模型性能和评估。测试集不会通过训练过程引入到模型中，以确保模型在新数据上进行测试。

成功完成训练后，将自动触发模型评估。评估过程首先使用经过训练的模型预测测试集内文档的用户定义类，并将其与提供的数据标记进行比较（这将建立真实的基线）。返回结果，以便可以查看模型的性能。对于评估，自定义文本分类使用以下指标：

精准率：度量模型的精确度/准确度。它是正确识别的正值（真正）与所有识别出的正值之间的比率。精准率指标指示正确标记了多少个预测类。

Precision = #True_Positive / (#True_Positive + #False_Positive)
召回率：度量模型预测实际正类的能力。它是预测的真正值与标记的结果之间的比率。召回率指标显示正确的预测类的数量。

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 分数：F1 分数是精准率和召回率的函数。在精度和召回之间寻求平衡时需要。

F1 Score = 2 * Precision * Recall / (Precision + Recall)

注意

准确率、召回率和 F1 值分别为每个类别进行计算（类级评估）以及为整个模型集体进行计算（模型级评估）。

模型级和类级的评估指标

对于类级和模型级评估，精准率、召回率和计算的定义是相同的。但是，真正、假正和假负的计数不同，如下例所示。

下列部分使用以下示例数据集：

Document	实际类	预测类
1	action、comedy	喜剧
2	操作	操作
3	浪漫	浪漫
4	romance、comedy	浪漫
5	喜剧	操作

action 类的类级评估

密钥	Count	说明
真正	1	文档 2 已正确分类为 action。
假正	1	文档 5 已错误分类为 action。
假负	1	文档 1 本应被分类为 “行动”，但却未分类。

精准率 = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 分数 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

comedy 类的类级评估

密钥	Count	说明
真正	1	文档 1 已正确分类为 comedy。
假正	0	未将任何文档错误地分类为 comedy。
假负	2	尽管文档 5 和 4 应分类为 comedy，但它们没有。

精准率 = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 2) = 0.33

F1 分数 = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.67) / (1 + 0.67) = 0.80

对整体模型进行模型级评估

密钥	Count	说明
真正	4	文档 1、2、3 和 4 在预测时被正确分类为相应的类别。
假正	1	在预测时，文档 5 被分配到了一个错误的类别。
假负	2	文档 1 和 4 在预测时未被完全正确分类。

精准率 = #True_Positive / (#True_Positive + #False_Positive) = 4 / (4 + 1) = 0.8

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 4 / (4 + 2) = 0.67

F1 分数 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.8 * 0.67) / (0.8 + 0.67) = 0.73

注意

对于单标签分类模型，假负数和误报数始终相等。自定义单标签分类模型始终预测每个文档的一个类。如果预测不正确，FP 预测类的计数增加一，FN 实际类的计数增加一，而模型的总体计数 FP 和 FN 始终保持相等。多标签分类的情况并非如此，因为未能预测出文档的某个类别会被计为假阴性。

解释类级评估指标

那么，对于某个类来说，具有高精准率或高召回率实际上意味着什么？

召回率	精准率	解释
高	高	模型已成功处理类别指定。
低	高	模型不能始终预测此类，但在执行此类时，它会具有高置信度。此评估可能是因为此类在数据集中未被充分代表，因此请考虑平衡数据分布。
高	低	模型对这一类的预测很好，但是置信度较低。可能是由于数据集中的类过度表示，因此请考虑平衡数据分布。
低	低	模型在缺乏高置信度的情况下，对这一类的处理质量很差。

自定义文本分类模型预计会同时遇到假负和假正。需要考虑每个系统如何影响整个系统。仔细考虑模型忽略正确预测并识别错误预测的情况。根据你的方案，精准率或召回率可能更适合评估模型的性能。

例如，如果你的方案涉及处理技术支持票，则预测错误类可能会导致将其转发给错误的部门/团队。在此示例中，应考虑让你的系统对假正更敏感，并且精准率将是一个更相关的评估指标。

另一个示例是，如果你的方案涉及将电子邮件分类为“重要”或“垃圾邮件”，则错误预测可能会导致你在标记为“垃圾邮件”时错过有用的电子邮件。但是，如果垃圾邮件标记为重要，则可以忽略它。在此示例中，应考虑让你的系统对假负更敏感，召回率将是一个更相关的评估指标。

如果要针对常规用途方案进行优化，或者当精准率和召回率都很重要时，可以使用 F1 分数。评估分数是主观的，具体取决于你的场景和验收条件。没有适用于所有方案的绝对指标。

指南

训练模型后，可以查看有关如何改进模型的一些指导和建议。建议在指南部分中设置涵盖所有点的模型。

训练集具有足够的数据：训练数据中具有少于 15 个标记实例的类类型可能会导致准确性降低，因为模型在事例上训练不足。
测试集中存在所有类类型：当测试数据缺少类类型的标记实例时，由于未测试的方案，模型的测试性能可能会变得不那么全面。
类类型在定型和测试集内平衡：当采样偏差导致类类型频率的不准确表示时，可能会导致准确性降低，因为模型期望该类类型发生得太频繁或太少。
类类型在训练集和测试集之间均匀分布：当类类型的混合在训练集和测试集之间不匹配时，可能会导致测试准确性降低，因为模型在训练方式与测试方式不同。
训练集中的类类型明显不同：多个类类型的训练数据相似时，由于类类型可能经常被错误分类为彼此，可能会导致准确性降低。

混淆矩阵

重要说明

混淆矩阵不适用于多标签分类项目。混淆矩阵是用于模型性能评估的 N x N 矩阵，其中 N 是类数目。该矩阵将预期标签与模型预测的标签进行比较。这为模型的性能以及它所犯的错误类型提供了整体视图。

可以使用混淆矩阵来识别彼此之间过于接近且经常被弄错（歧义）的类。在这种情况下，请考虑将这些类合并在一起。如果无法做到这一点，请考虑使用这两个类标记更多文档，以帮助模型区分它们。

所有正确的预测都位于表的对角线中，因此可以轻松直观地检查表是否有预测错误。

可以根据混淆矩阵计算类级别和模型级别的评估指标：

对角线的值是每个类的真正值。
类行中值的总和（不包括对角线）是模型的假正值。
类列中值的总和（不包括对角线）是模型的假负值。

同样，

模型的真正值是所有类的真正值的总和。
模型的假正值是所有类的假正值的总和。
模型的假负值是所有类的假负值的总和。

Next steps

反馈

此页面是否有帮助？

Last updated on 2025-11-20