你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
注释
随着 2025-11-01 API 版本的发布,内容理解服务现在已成为正式版 (GA) 服务。 有关详细信息,请参阅 “新增功能”。
Foundry Tools 中的 Azure 内容理解是作为 Azure 门户中 Microsoft Foundry 资源的一部分提供的 Foundry 工具。 它使用生成 AI 将许多类型(文档、图像、视频和音频)的内容处理/引入到用户定义的输出格式。 内容理解提供了一个简化的过程来推理大量的非结构化数据,通过生成可集成到自动化和分析工作流的输出来加速价值实现时间。
随着 2025-11-01 API 版本的发布,内容理解服务现在已成为正式版 (GA) 服务。 它现在可在更广泛的 区域中使用。 有关 GA 版本中的更新详细信息,请参阅内容理解最近更新页。
为何使用内容理解?
通过直接处理具有置信度分数的非结构化数据,最大程度地减少手动评审和降低运营成本,内容理解可加速实现价值。 主要优势包括:
简化和精简工作流。 内容理解将内容、结构和见解从各种内容类型提取和分类标准化为统一过程。
简化字段提取。 通过内容理解的字段提取,可以更轻松地从非结构化内容生成结构化输出。 定义一个架构以提取、分类或生成字段值,无需复杂的提示工程
提高准确性。 内容理解使用多个 AI 模型同时分析和交叉验证信息,从而生成更准确、更可靠的结果。
置信度分数和基础设置。 内容理解可确保提取值的准确度,同时最大程度地降低人工审核成本。
对内容类型进行分类。 通过内容理解,你可以对文档类型进行分类,以简化处理内容的能力,现在可在分析 API 中的统一方法中使用。
行业特定的预生成分析器。 内容理解包括专为行业特定方案设计的预构建分析器,包括:税务准备、采购文档处理、合同分析、呼叫中心分析、媒体分析等。
内容理解用例
智能文档处理(IDP)。 内容理解通过将非结构化文档转换为具有较高准确度的结构化数据,实现智能文档处理。 置信度分数和基础功能可确保数据质量,同时最大程度地减少手动评审和降低运营成本。 例如,通过从复杂文档提取和验证字段,自动执行发票处理、合同分析和声明管理。
代理应用程序。 内容理解是代理将混乱、多模式文件输入转换为可预测的标准化输入的工具。 它为推理和知识工作流提供干净的 Markdown 表示形式,确保下游任务的清晰度和上下文。 当需要结构化数据时,它为架构对齐的键值字段提供置信度分数和基础,使代理能够以准确性和可审核性自动执行决策。
搜索与检索增强生成(RAG)。 内容理解允许将任何形式的内容引入搜索索引,并广泛支持数字描述和分析,使数据更易于访问。 内容理解服务提供了多个预生成分析器,这些分析器经过微调,为 RAG 搜索方案提供最佳输出。
机器人过程自动化(RPA)。 内容理解通过提供从各种内容类型中提取的结构化数据,与 RPA 工作流无缝集成。 这可实现需要内容理解的业务流程的端到端自动化,例如订单处理、客户载入和法规合规性工作流。
分析和报告:内容理解提取的字段输出可增强分析和报告,使企业能够获取有价值的见解,进行更深入的分析,并根据准确的报告做出明智的决策。
通过分类优化工作流:内容理解的分类功能使你可以先对文档进行分类,然后再将其路由到关联的分析器进行提取。
行业特定的应用程序
内容理解的一些常见行业特定的应用程序包括:
| 应用程序 | 说明 |
|---|---|
| 税务自动化 | 税务准备公司可以使用内容理解从各种文档生成统一的信息视图,创建全面的纳税申报表。 |
| 抵押贷款申请处理 | 分析补充支持文档和抵押贷款申请,以确定潜在购房者是否提供了保护抵押贷款所需的所有文档。 |
| 发票合同验证 | 仔细查看与客户签订的发票和合同协议。 应用多步骤推理过程来分析数据。 确保验证发票与合同之间的一致性等结论准确彻底。 |
| 检索增强生成 (RAG) 引入 | 组织可以通过从本来会错过的文档中提取全面的信息来增强其 RAG 工作流。 图说明从图表、图解和可视化图像中捕获信息,使其能够被搜索。 布局分析保留文档结构,包括表、节和层次结构。 注释检测捕获手写笔记、下划线和删除线。 |
| 通话后分析 | 企业和呼叫中心可以从通话记录生成见解,以跟踪关键绩效指标(KPI),改善产品体验,生成业务见解,创建差异化的客户体验,并更快、更准确地应答查询。 |
| 媒体资产管理 | 软件和媒体供应商可以使用内容理解从视频中提取更丰富、针对性更强的信息,作为媒体资产管理解决方案。 |
| 增强的客户支持 | 支持渠道的企业可以利用 RAG 搜索的内容理解来根据先前客户问题和反馈的数据提高响应质量。 |
内容理解的关键组件
内容理解框架通过多个阶段处理非结构化内容,将输入转换为结构化的可作输出。 下表描述了从左到右的每个组件,如下图所示:
| 组件 | 说明 |
|---|---|
| 输入 | 内容理解处理的源内容。 支持多种形式,包括文档、图像、视频、音频。 详细了解 输入文件类型。 |
| 分析器 | 定义内容处理方式的核心组件。 它配置内容提取设置、字段提取架构和模型部署。 配置后,分析器会一致地将这些设置应用于所有传入数据。 内容理解为常见方案提供预生成分析器,并支持根据需求定制的自定义分析器。 详细了解分析器、预生成分析器和自定义分析器。 |
| 内容提取 | 将非结构化输入转换为规范化、结构化文本和元数据。 使用光学字符识别(OCR)提取文本,识别选择标记和条形码、检测公式,以及识别段落、节和表格等布局元素。 对于音频和视频,转录语音并标识关键视觉元素。 详细了解 内容提取。 |
| 细分 | 将文档或视频划分为用于目标处理的逻辑部分。 使用 enableSegment 分析器架构中的属性进行配置。 允许将内容分解为有意义的区块,例如按文档类型拆分文档或将视频划分为场景。 详细了解 分段和分类。 |
| 字段提取 | 根据定义的架构生成结构化键值对。 请参阅支持字段类型的 服务限制 。 字段可以通过三种方法生成: • 提取:直接提取值,因为它们显示在输入内容中(仅支持文档),例如发票中的收据日期或项目详细信息。 • 分类:对预定义类别集(例如调用情绪或图表类型)中的内容进行分类,并将其路由到正确的分析器进行分析。 • 生成:从输入数据自由生成值,例如汇总音频对话或从视频创建场景说明。 详细了解 字段提取。 |
| 置信度分数 | 为每个提取的字段值提供 0 到 1 之间的可靠性估计。 高分表示准确的数据提取,可在自动化工作流中实现直通式处理。 可以在文档分析器中通过 estimateFieldSourceAndConfidence 设置启用。 详细了解 置信度分数。 |
| 接地 | 标识提取或生成每个值的内容中的特定区域。 在自动化场景中,来源基础功能允许用户通过追溯字段值到其源内容,快速验证其正确性。 可以在文档分析器中通过 estimateFieldSourceAndConfidence 设置启用。 详细了解基础设置。 |
| 情境化 | 内容理解的处理层,用于为生成模型准备上下文,并在其输出后进行处理。 包括输出规范化和格式设置、源地面计算、置信度分数计算和上下文工程,以优化模型使用情况。 详细了解 情境化。 |
| Foundry 模型 | Foundry 大型语言模型(LLM)和嵌入模型为生成功能提供支持。 您自行部署支持的生成模型和文本嵌入模型用于训练示例。 内容理解使用这些模型进行字段提取、图分析和其他 AI 支持的功能。 详细了解 模型和部署。 |
| 结构化输出 | 最终结果以所选格式提供。 内容可以输出为 Markdown,用于搜索和信息检索,或者输出为与您所定义的架构匹配的结构化 JSON,用于自动化和分析工作流。 |
内容理解体验
内容理解是一项 Foundry 服务。 若要使用内容理解,必须创建 Foundry Azure 资源。 内容理解工作室为需要高级功能的客户补充 Foundry 体验。 有关各项服务的详细明细,请查看功能比较:Foundry 中的内容理解与内容理解工作室
- Foundry 中的内容理解(即将推出):Foundry NextGen 门户提供了使用内容理解工具构建高级、全面的代理工作流的功能。
- 内容理解工作室:互补的 UX 体验,内容理解工作室为从文档智能转换的客户提供了流畅的过渡。 它提供针对分析器性能改进进行优化的体验,包括使用数据标记技术改进自定义分析器。 它还支持构建基于分类的自定义分析器。
负责任 AI
内容理解旨在防范处理过程中出现有害内容,如血腥暴力和恐怖内容、仇恨言论和欺凌、剥削、虐待等。 该服务利用标准 Foundry 基础结构(包括 Azure AI 内容安全)将内容安全结果集成到内容理解输出中。 有关详细信息和禁止内容的完整列表,请参阅我们的 透明度说明 和 行为准则。
经过修改的内容筛选
内容理解支持为已批准的客户提供修改后的内容筛选。 内容筛选功能已针对获批客户修改的订阅 ID(标识符)会影响内容理解输出。 默认情况下,内容理解使用内容筛选系统,该系统在提交的提示和生成的输出中识别潜在有害内容的特定风险类别。 修改后的内容筛选允许系统批注而不是阻止潜在的有害输出,让你能够确定如何处理潜在的有害内容。 有关内容筛选器类型的详细信息,请参阅 内容筛选器类型。
重要说明
- 使用此表单申请修改的内容筛选器: Azure OpenAI 受限访问评审:修改的内容筛选器。
- 有关详细信息, 请参阅内容筛选。
人脸功能
内容理解提供人脸描述功能,可在视频和图像内容中生成人脸的详细文本说明。 启用后,生成模型描述面部特性,如面部毛发、面部表情,并且可以识别知名人士或名人。 详细了解 视频处理中的人脸描述。
数据隐私和安全性
使用内容理解服务的开发人员应查看 Microsoft 有关客户数据的政策。 有关详细信息,请访问我们的数据、保护和隐私页面。
重要说明
如果使用 Microsoft 产品或服务处理生物特征数据,你需要负责以下事项:(i) 向数据主体提供通知,包括有关保留期和销毁的通知;(ii) 从数据主体处获得同意;(iii) 根据适用的数据保护要求删除生物特征数据。 “生物特征数据”将具有 GDPR 第 4 条中所述的含义,以及其他数据保护要求中的等效术语(如果适用)。 有关相关信息,请参阅 人脸的数据和隐私。
开始
我们的快速入门指南可帮助你快速开始使用内容理解服务: