你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何训练自定义文本分类模型

训练是模型从标记的数据进行学习的过程。 训练完成后,可以查看 模型的性能 ,以确定是否需要改进模型。

若要训练模型,请启动训练作业。 只有已成功完成的作业才能创建可用模型。 训练作业在七天后过期。 在此时间段之后,将无法检索作业详细信息。 如果训练作业成功完成并创建了模型,则作业过期不会受到影响。 你在同一时间只能有一个训练作业处于运行状态,并且无法在同一项目中启动其他作业。

根据数据集大小和架构的复杂性,训练时间可能从几分钟到几小时不等。

Prerequisites

在训练模型之前,需要:

请参阅 项目开发生命周期

数据拆分

开始训练过程之前,项目中标记的文档会划分为训练集和测试集。 其中的每一个都有不同的功能。 训练集用来训练模型,模型通过训练集学习分配给每个文档的类别。 测试集是一个盲集,它不是在训练期间引入到模型的,而是在评估期间引入的。 成功训练模型后,它可以从测试集中的文档进行预测。 根据这些预测,计算模型的 评估指标 。 建议确保所有类在训练集和测试集中均已充分表示。

自定义文本分类支持两种数据拆分方法:

  • 自动从训练数据拆分测试集:系统根据所选的百分比在训练集和测试集之间拆分标记的数据。 系统会尝试表示训练集中的所有类。 建议的拆分百分比为 80% 用于训练,20% 用于测试。

注意

如果选择自动将测试集从训练数据中拆分选项,则仅根据提供的百分比拆分分配为训练集的数据。

  • 使用手动拆分训练和测试数据:此方法使用户能够定义标记的文档应分别属于哪个集合。 仅当 在数据标记过程中将文档添加到测试集时,才启用此步骤。

定型模型

若要在 Language Studio 中开始训练模型,请执行以下操作:

  1. 在左侧菜单中,选择“训练作业”

  2. 从顶部菜单中选择“启动训练作业”

  3. 然后选择“训练新模型”并在文本框中键入模型名称。 还可以通过选择“覆盖现有模型”选项并从下拉菜单中选择要覆盖的模型来覆盖现有模型。 覆盖已训练模型的操作不可逆,但在部署新模型之前,不会影响已部署的模型。

    新建训练作业

  4. 选择数据拆分方法。 可以选择“从训练数据中自动拆分测试集”,系统将根据指定的百分比在训练集和测试集之间拆分标记数据。 或者,可以使用 手动拆分训练和测试数据,仅当 在数据标记期间将文档添加到测试集时,才启用此选项。 有关数据拆分的详细信息,请参阅如何训练模型

  5. 选择“训练”按钮

  6. 如果从列表中选择训练作业 ID,则会显示一个侧窗格,可在其中检查此作业的“训练进度”、“作业状态”和其他详细信息

    注意

    • 只有成功完成的训练作业才会生成模型。
    • 训练模型所需的时间可能在几分钟到几个小时之间,具体取决于你标记的数据的大小。
    • 一次只能运行一个训练作业。 在运行的作业完成之前,无法在同一项目中启动其他训练作业。

取消训练作业

要在 Language Studio 中取消训练作业,请转到“训练作业”页。 选择要取消的训练作业,然后选择顶部菜单中的“取消”。

Next steps

训练完成后,可以查看 模型的性能 ,以便根据需要选择性地改进模型。 对模型感到满意后,就可以部署模型,使其可用于对文本进行分类