你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

内容理解分类/分段

内容理解允许客户在分析器作请求中实现分类和拆分。可以在单个 API 调用中执行内容分类和内容提取。

全局概念 analyzer 现在包括 contentCategories 和 enableSegment 的概念，用于在应用程序中对处理的输入数据进行分类和拆分。此分析器功能可以整体执行输入文件的分类。它还可以识别输入文件中的多个文档或单个文档的多个实例。

从 GA 版本开始，文档分类和视频分段设计是统一的，允许一致的方法处理输入数据，而不考虑其形式。在文档中，“内容理解分类”指的是对输入数据进行分类和拆分所需的分析操作（contentCategories 以及 enableSegment）。

业务用例

内容理解分类允许处理各种格式和模板的复杂文档和视频：

发票：根据需要对来自多个供应商的发票进行分类，以使用不同的内容理解分析器处理每个类别。
税务文档：将多个税务文档分类为不同类型的税单，例如 1040 和 1099。
合同：对长期非结构化合同进行分类，以简化运营，以了解不同类型的协议及其特定的法律影响。
体育视频：自动将场景细分为逻辑区块，如广告和实际体育内容。

分类/分段功能

内容理解可以分析单个或多文件文档，以确定输入文件是否可以分类为定义的类别。支持以下方案：

文档场景：

仅分类：将输入文件分类为整体。例如，包含一个文档类型的单个文件，例如贷款申请表单。
分类和分析：通过将输入路由到所需的提取分析器来对输入文件进行分类和分析。
分类和分段：对可能合并多个文档类型或实例的单个输入文件进行分类和分段。例如，包含贷款申请表单、付款单和银行账单的贷款申请包。另一个示例是单个文件中扫描的发票集合。
分类、分段和分析：对段进行分类后，将每个段路由到所需的提取分析器，以便进一步进行字段提取。
分层分类器：根据类别，可进行可选的附加分析，这也可以是分类器分析器。

视频场景：

仅分段：基于在description字段中定义的contentCategories内容特征，将视频拆分为段。例如，将体育广播拆分为游戏、广告和评论段。
分段和分析：将视频拆分为段，并将每个段路由到分析器以进行字段提取。

注释

文档分类的最低单位是单页。不支持页内分类。

创建分类类别

内容理解分类不需要训练数据集。可以在分析作中最多定义 200 个类别名称和说明。默认情况下，整个文件被视为单个内容对象，这意味着该文件将关联到单个类别。

从 GA 版本开始，您需要在other中包含contentCategories类别，以确保内容不与您定义的任何类别相匹配。 other如果未包含类别，则所有文件都将被强制分类为已定义的类别之一。在 contentCategories 中定义的每个类别名称也可以包含一个 description，用于提供关于您正在定义的类别的进一步信息。

输入文件拆分

在文件中有多个文档时，分类器可以识别具有拆分功能的输入文件中包含的不同文档类型。分类器响应包含文件中包含的每个已标识文档类型的页面范围。此响应可以包含同一文档类型的多个实例。

运行 analyze 作时，它现在包含一个 enableSegment 属性，该属性提供对拆分行为的精细控制。还可以指定页码以仅分析输入文档的某些页面：

若要将整个输入文件视为组合在一起进行分类的多个文档，请设置为 enableSegmenttrue。执行此作时，服务会自动返回输入文件中段的类别。
若要将整个输入文件视为单个文档，请设置为 enableSegmentfalse.

注释

对于视频，仅支持分段。必须定义一个 contentCategories 并将 enableSegment 设为 true。使用 description 字段指定将视频拆分为段的条件。

可选分析

对于完整的端到端流，可以将分类器类别与现有的自定义分析器和预生成分析器链接。对于分类为具有链接分析器类别的每个内容对象，该服务将使用相应的分析器自动调用对内容对象的分析。

例如，可以使用此链接创建分类器，该分类器仅标识和分析包含文档中多种类型的表单的 PDF 中的发票。将 analyzerId 设置为预构建的分析器或自定义分析器中的一个，来路由分类后的文档或页面，并执行字段提取。

您还可以省略设置任何 analyzerId 来进行分类，但不会对分类的文件或段执行任何内容分析。

在顶层，还可以指定 omitContent 为 true，以确保省略原始内容对象，并且仅返回对分类段或文件执行的其他分析中的内容对象。

分层分类器

新设计的分析器操作允许进行分层拆分和分类。例如，在基本分析器操作中，可以对你使用自定义分析器定义的内容类别设置 analyzerID，该分析器可根据需求执行其他分类或拆分。定义分层分析器可以实现对不同类型的文档（如发票、合同和收据）进行分类。每个类别的分析器ID也可以作为一个分析操作，其中启用了其他分类功能，用于识别发票、合同和收据中不同类型的文件。

文档输入支持五个嵌套级别，视频输入支持两个级别。

分类器限制

有关支持的输入文档格式和分类器限制的信息，请参阅服务配额和限制。

最佳做法

若要改进分类和拆分质量，请使用良好的类别名称和说明，以便模型可以了解具有某些上下文的类别。有关类别名称和说明的详细信息，请参阅最佳做法。

主要优势

准确性和可靠性：确保精确的文档分类以减少错误并提高效率。
可伸缩性：横向扩展文档处理以满足业务需求。
可自定义：调整文档分类器以适应特定工作流。

支持的语言和区域

有关支持的语言和区域的列表，请参阅语言和区域支持。

数据隐私和安全性

使用内容理解功能的开发人员应查看Microsoft关于客户数据的策略。有关详细信息，请参阅数据、保护和隐私。

尝试在内容理解工作室中处理文档内容
了解如何使用分析器模板处理文档内容。

反馈

此页面是否有帮助？

Last updated on 2025-12-10