你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
自定义命名实体识别(NER)是一种基于云的 API 服务,它使用机器学习来帮助构建专为独特实体识别要求设计的模型。 它是 Foundry Tools 中的 Azure 语言提供的专用功能之一。 使用自定义 NER,可以创建 AI 模型,以便从非结构化文本(如合同或财务文档)中提取特定于域的实体。 启动自定义 NER 项目时,可以重复标记数据、训练和评估模型,并在部署模型之前提高其性能。 标记数据的质量至关重要,因为它直接影响模型的准确性。
为了简化模型构建和自定义,该服务提供了可通过 Microsoft Foundry 访问的自定义 Web 平台。 可以按照此快速入门中的步骤轻松开始使用该服务。
本文档包含以下文章类型:
使用方案示例
自定义命名实体识别可以在各个行业的多种场景中使用。
信息提取
许多金融和法律组织每天都将从数千个复杂的非结构化文本源中提取和规范化数据。 此类源包括银行对帐单、法律协议或银行表单。 例如,由人工审核员手动完成的抵押贷款申请数据提取可能需要几天时间才能完成。 通过生成自定义 NER 模型自动执行这些步骤可简化流程并节省成本、时间和精力。
用于增强/丰富语义搜索的知识挖掘
搜索是任何向用户展示文本内容的应用程序的基础。 常见方案包括目录或文档搜索、零售产品搜索或数据科学知识挖掘。 各行各业的许多企业都希望针对专用的异构内容(包括结构化和非结构化文档)构建丰富的搜索体验。 作为管道的一部分,开发人员可以使用自定义 NER 从与行业相关的文本中提取实体。 这些实体可用于丰富文件的索引,以获得更加自定义的搜索体验。
审核和符合性
财务或法律企业 IT 部门可以使用自定义 NER 来构建自动化解决方案,而不是手动审阅长文本文件来审核和应用策略。 这些解决方案有助于强制执行合规性策略,并基于处理结构化和非结构化内容的知识挖掘管道设置必要的业务规则。
项目开发生命周期
使用自定义 NER 通常包含几个不同的步骤。
定义架构:了解数据,并确定你要提取的实体。 避免歧义。
标记数据:标记数据是确定模型性能的关键因素。 准确、一致、完整地标记。
- 精确标记:始终将每个实体标记为正确的类型。 仅包括要提取的内容并避免标签中不必要的数据。
- 一致标记:同一实体在所有文件中都应具有相同的标签。 完全标记:标记所有文件中实体的所有实例。
训练模型:模型始于从已标记数据进行学习。
查看模型的性能:训练后,查看评估结果并分析性能以改进。
部署模型:部署模型后,可通过分析 API 使用它。
提取实体:对实体提取任务使用自定义模型。
参考文档和代码示例
使用自定义 NER 时,请参阅 Foundry Tools 中 Azure 语言的以下参考文档和示例:
| 开发选项/语言 | 参考文档 | 示例 |
|---|---|---|
| REST API(创作) | REST API 文档 | |
| REST API(运行时) | REST API 文档 | |
| C#(运行时) | C# 文档 | C# 示例 |
| Java(运行时) | Java 文档 | Java 示例 |
| JavaScript(运行时) | JavaScript 文档 | JavaScript 示例 |
| Python(运行时) | Python 文档 | Python 示例 |
负责任的 AI
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署环境。 阅读 透明度说明 ,了解系统中负责任的 AI 使用和部署。 有关详细信息, 请参阅 以下文章: