你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何对自定义命名实体识别使用自动标记

标记过程是准备数据集的重要部分。 由于此过程需要花费大量时间和精力,你可以使用自动标记功能来自动标记实体。 可以根据以前训练的模型或使用 GPT 模型启动自动标记作业。 基于之前训练的模型自动标记后,可以开始标记一些文档、训练模型,然后创建自动标记作业,以基于该模型为其他文档生成实体标签。 使用自动标记 GPT时,可以立即触发自动标记作业,而无需任何以前的模型训练。 此功能可以节省你手动标记实体的时间和精力。

Prerequisites

在根据训练的模型使用自动标记之前,需要:

触发自动标记作业

根据训练的模型触发自动标记作业时,每个资源每月限制为 5,000 条文本记录。 同一限制适用于同一资源中的所有项目。

提示

文本记录以(文档中的字符数 / 1,000)的向上取整数来计算。 例如,如果文档包含 8,921 个字符,则文本记录数为:

ceil(8921/1000) = ceil(8.921),即九条文本记录。

  1. 在左窗格中,选择 “数据标签”。

  2. 选择页面右侧“活动”窗格下的“自动标记”按钮。

    显示如何触发自动标记作业的屏幕截图。

  3. 根据已训练的模型选择自动标签,然后选择“下一步”。

    显示自动标记的模型选择的屏幕截图。

  4. 选择一个已训练的模型。 建议先检查模型性能,然后再使用它进行自动标记。

    显示如何为自动标记选择经过训练的模型的屏幕截图。

  5. 选择要包含在自动标记作业中的实体。 默认选中所有实体。 可以看到每个实体的总标签、精度和召回率。 建议包含性能良好的实体,以确保自动标记的实体的质量。

    显示要包含在自动标记作业中的实体的屏幕截图。

  6. 选择要自动标记的文档。 将显示每个文档的文本记录数。 选择一个或多个文档时,应会看到所选文本记录数。 建议从筛选器中选择未标记的文档。

    注意

    • 如果实体已自动标记,但具有用户定义的标记,则仅用户定义的标记可用并可见。
    • 可以通过选择文档名称来查看文档。

    显示自动标记作业中要包含哪些文档的屏幕截图。

  7. 选择“自动标记”以触发自动标记作业。 应会看到使用的模型、自动标记作业中包含的文档数、文本记录数和要自动标记的实体。 自动标记作业可能需要几秒钟到几分钟的时间,具体取决于包含的文档数。

    显示自动标记作业的评审屏幕的屏幕截图。

查看自动标记的文档

自动标记作业完成后,可以在 Language Studio 页面的“数据标记”中看到输出文档。 选择“审阅带自动标记的文档”,以查看应用了“已自动标记”筛选器的文档。

显示自动标记的文档的屏幕截图

自动标记的实体将显示虚线。 这些实体有两个选择器(一个复选标记和一个“X”),用于接受或拒绝自动标记。

接受实体后,虚线会变为实线,此标记会被包含在任何进一步的模型训练中,成为用户定义的标记。

此外,可以使用屏幕右上角的“全部接受”或“全部拒绝”,接受或拒绝文档中所有自动标记的实体。

接受或拒绝标记的实体后,选择“保存标记”以应用更改。

注意

  • 建议在接受自动标记的实体之前先验证这些实体。
  • 训练模型时,将删除所有不接受的标签。

显示如何接受和拒绝自动标记的实体的屏幕截图。

Next steps