你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义文本分类中使用的术语和定义

通过本文了解在使用自定义文本分类时可能会遇到的一些定义和术语。

类是用户定义的类别,用于指示文本的整体分类。 开发人员在将数据传递给模型进行训练之前,会使用他们的类对数据进行标记。

F1 分数

F1 分数是精准率和召回率的函数。 在 精度召回之间寻求平衡时需要。

模型

模型是训练执行特定任务的对象,在本例中为文本分类任务。 将通过提供要从中进行学习的带标记数据来训练模型,以便以后可以将其用于分类任务。

  • 模型训练指的是指导你的模型根据带标记数据对文档进行分类的过程。
  • 模型评估是一种在训练后立即进行的过程,可了解模型的性能情况
  • 部署指的是将模型分配到部署以便通过预测 API 使用它的过程。

Precision

度量模型的精确度/准确度。 它是正确识别的正值(真正)与所有识别出的正值之间的比率。 精准率指标指示正确标记了多少个预测类。

Project

项目是一个工作区,用于基于你的数据构建自定义 ML 模型。 你的项目只能由你和有权访问正在使用的 Azure 资源的其他人员访问。 作为创建自定义文本分类项目的先决条件,在创建新项目时,必须将资源连接到包含数据集的存储帐户。 你的项目自动包含容器中所有可用的 .txt 文件。

在您的项目中,您可以执行以下操作:

  • 标记数据:对你的数据进行标记,以便在训练模型时模型可了解你要提取的内容。
  • 构建和训练模型:项目的核心步骤,模型在此步骤中将开始从带标记数据中进行学习。
  • 查看模型评估详细信息:查看模型性能,以确定是否有改进空间,或者你对结果感到满意。
  • 部署:查看模型性能并确定它是否可以在环境中使用后,需要将其分配给部署才能对其进行查询。 将模型分配给部署会使其可通过预测 API 使用。
  • 测试模型:在部署模型后,可以在 Language Studio 中使用此操作来试用部署,并查看它在生产环境中的性能。

项目类型

自定义文本分类支持两种类型的项目

  • 单标签分类 - 你只能为数据集中的每个文档分配一个类。 例如,电影剧本只能归类为“浪漫”或“喜剧”。
  • 多标签分类 - 你可以为数据集中的每个文档分配多个类。 例如,电影脚本可以归类为“喜剧”或“浪漫”和“喜剧”。

召回率

度量模型预测实际正类的能力。 它是预测的真正值与标记的结果之间的比率。 召回率指标显示正确的预测类的数量。

Next steps