你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
内容理解允许客户在分析器作请求中实现分类和拆分。 可以在单个 API 调用中执行内容分类和内容提取。
全局概念 analyzer 现在包括 contentCategories 和 enableSegment 的概念,用于在应用程序中对处理的输入数据进行分类和拆分。 此分析器功能可以整体执行输入文件的分类。 它还可以识别输入文件中的多个文档或单个文档的多个实例。
从 GA 版本开始,文档分类和视频分段设计是统一的,允许一致的方法处理输入数据,而不考虑其形式。 在文档中,“内容理解分类”指的是对输入数据进行分类和拆分所需的分析操作(contentCategories 以及 enableSegment)。
业务用例
内容理解分类允许处理各种格式和模板的复杂文档和视频:
- 发票:根据需要对来自多个供应商的发票进行分类,以使用不同的内容理解分析器处理每个类别。
- 税务文档:将多个税务文档分类为不同类型的税单,例如 1040 和 1099。
- 合同:对长期非结构化合同进行分类,以简化运营,以了解不同类型的协议及其特定的法律影响。
- 体育视频:自动将场景细分为逻辑区块,如广告和实际体育内容。
分类/分段功能
内容理解可以分析单个或多文件文档,以确定输入文件是否可以分类为定义的类别。 支持以下方案:
文档场景:
- 仅分类:将输入文件分类为整体。 例如,包含一个文档类型的单个文件,例如贷款申请表单。
- 分类和分析:通过将输入路由到所需的提取分析器来对输入文件进行分类和分析。
- 分类和分段:对可能合并多个文档类型或实例的单个输入文件进行分类和分段。 例如,包含贷款申请表单、付款单和银行账单的贷款申请包。 另一个示例是单个文件中扫描的发票集合。
- 分类、分段和分析:对段进行分类后,将每个段路由到所需的提取分析器,以便进一步进行字段提取。
- 分层分类器:根据类别,可进行可选的附加分析,这也可以是分类器分析器。
视频场景:
-
仅分段:基于在
description字段中定义的contentCategories内容特征,将视频拆分为段。 例如,将体育广播拆分为游戏、广告和评论段。 - 分段和分析:将视频拆分为段,并将每个段路由到分析器以进行字段提取。
注释
文档分类的最低单位是单页。 不支持页内分类。
创建分类类别
内容理解分类不需要训练数据集。 可以在分析作中最多定义 200 个类别名称和说明。 默认情况下,整个文件被视为单个内容对象,这意味着该文件将关联到单个类别。
从 GA 版本开始,您需要在other中包含contentCategories类别,以确保内容不与您定义的任何类别相匹配。
other如果未包含类别,则所有文件都将被强制分类为已定义的类别之一。 在 contentCategories 中定义的每个类别名称也可以包含一个 description,用于提供关于您正在定义的类别的进一步信息。
输入文件拆分
在文件中有多个文档时,分类器可以识别具有拆分功能的输入文件中包含的不同文档类型。 分类器响应包含文件中包含的每个已标识文档类型的页面范围。 此响应可以包含同一文档类型的多个实例。
运行 analyze 作时,它现在包含一个 enableSegment 属性,该属性提供对拆分行为的精细控制。 还可以指定页码以仅分析输入文档的某些页面:
- 若要将整个输入文件视为组合在一起进行分类的多个文档,请设置为
enableSegmenttrue。 执行此作时,服务会自动返回输入文件中段的类别。 - 若要将整个输入文件视为单个文档,请设置为
enableSegmentfalse.
注释
对于视频,仅支持分段。 必须定义一个 contentCategories 并将 enableSegment 设为 true。 使用 description 字段指定将视频拆分为段的条件。
可选分析
对于完整的端到端流,可以将分类器类别与现有的自定义分析器和预生成分析器链接。 对于分类为具有链接分析器类别的每个内容对象,该服务将使用相应的分析器自动调用对内容对象的分析。
例如,可以使用此链接创建分类器,该分类器仅标识和分析包含文档中多种类型的表单的 PDF 中的发票。 将 analyzerId 设置为预构建的分析器或自定义分析器中的一个,来路由分类后的文档或页面,并执行字段提取。
您还可以省略设置任何 analyzerId 来进行分类,但不会对分类的文件或段执行任何内容分析。
在顶层,还可以指定 omitContent 为 true,以确保省略原始内容对象,并且仅返回对分类段或文件执行的其他分析中的内容对象。
分层分类器
新设计的分析器操作允许进行分层拆分和分类。 例如,在基本分析器操作中,可以对你使用自定义分析器定义的内容类别设置 analyzerID,该分析器可根据需求执行其他分类或拆分。 定义分层分析器可以实现对不同类型的文档(如发票、合同和收据)进行分类。每个类别的分析器ID也可以作为一个分析操作,其中启用了其他分类功能,用于识别发票、合同和收据中不同类型的文件。
文档输入支持五个嵌套级别,视频输入支持两个级别。
分类器限制
有关支持的输入文档格式和分类器限制的信息,请参阅 服务配额和限制。
最佳做法
若要改进分类和拆分质量,请使用良好的类别名称和说明,以便模型可以了解具有某些上下文的类别。 有关类别名称和说明的详细信息,请参阅 最佳做法。
主要优势
- 准确性和可靠性:确保精确的文档分类以减少错误并提高效率。
- 可伸缩性:横向扩展文档处理以满足业务需求。
- 可自定义:调整文档分类器以适应特定工作流。
支持的语言和区域
有关支持的语言和区域的列表,请参阅 语言和区域支持。
数据隐私和安全性
使用内容理解功能的开发人员应查看Microsoft关于客户数据的策略。 有关详细信息,请参阅 数据、保护和隐私。