你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Foundry 工具中的 Azure 内容理解使用生成 AI 来处理文档、图像、视频和音频,并将其转换为结构化输出格式。 本指南提供了最大化准确性和效率的最佳做法。
定义有效的字段架构
明确和详细的字段定义对于准确提取至关重要。 遵循以下原则:
编写详细说明
提供明确的特定说明,指导模型获取正确的信息。 包括位置提示、格式预期和替代标签。
示例 - 发票日期字段:
The date when the invoice was issued, typically found at the top right corner. May be labeled as 'Invoice Date', 'Billing Date', or 'Issue Date'. Format is usually MM/DD/YYYY or DD-MM-YYYY.
包括所有别名
尽可能列出每个字段的所有可能名称,尤其是在处理各种文件模板时。 无论标记变体如何,这种多样性都有助于模型识别字段。
示例 - 投资分配:
Equal to the 'Distributions' column. Also disclosed as 'Realizations' or 'Realized Proceeds'.
使用肯定语言
描述字段 是什么 ,而非它 不是什么。 积极的描述更清晰、更有效。
而不是: “此字段不是发票日期,不是截止日期。
用: “交付货物或服务的日期,在交付信息部分找到。
将语言与内容匹配
使用与文件相同的语言定义字段名称和说明。 语言不匹配可以显著减少准确性。
例: 对于意大利语发票,请使用 Fornitore 意大利语说明而不是 Vendor 英语说明。
对重复数据使用结构化类型
将重复项(如行项或条目)定义为对象数组,而不是请求 JSON 输出的字符串字段。
示例 - 发票行项:
"lineItems": {
"type": "array",
"items": {
"type": "object",
"properties": {
"description": { "type": "string" },
"quantity": { "type": "number" },
"unitPrice": { "type": "number" },
"total": { "type": "number" }
}
}
}
指定生成方法
根据其用途为每个字段显式设置方法(extract或generateclassify) :
- 生成:需要推理或汇总的值(风险级别、摘要)
- 分类:从预定义选项中进行选择(文档类型、类别)
- 提取:直接显示在内容中的值(发票编号、日期)。
注释
仅文档分析器支持提取操作。
优化分类和归类
内容理解会自动处理语义类别中的视觉模板变体。 请遵循这些指南:
使用语义类别,而不是用于文档分类的视觉模板
不要为具有相同语义类型但不同视觉布局的文档或文件创建单独的类别。 例如,对所有发票变体,使用一个Invoice类别,而不是使用Invoice_Template_A、Invoice_Template_B两个。
编写有效的类别定义
- 使用常见标题:“年度财务报告”、“SEC 表单 10-K”
- 在类别名称中仅使用 ASCII 字符
- 提供区分上下文:语义含义、关键内容标记或独特的布局
- 如果需要标识离群值,请定义“其他”类别
- 避免仅复选框差异:不要创建仅在复选框值中不同的单独类别
示例 - 税务表单类别:
"2024_Form_1040": "US Individual Income Tax Return for tax year 2024. Contains '2024' prominently at the top."
"2025_Form_1040": "US Individual Income Tax Return for tax year 2025. Contains '2025' prominently at the top."
有效使用置信度分数
置信度分数有助于确定何时需要人工评审。 根据字段严重性设置不同的阈值:
- 关键字段 (TotalAmount,ContractTerminationDate):使用更高的阈值(≥0.90)
- 重要字段 (VendorName,InvoiceNumber):使用中等阈值(≥0.80)
- 非关键字段 (注释,备注):使用较低的阈值(≥0.70)
目前,文档分析器仅支持置信度分数。
注释
这些阈值作为插图包含在内。 每个用例都需要根据实验性确定阈值。
随着时间的推移提高准确性
从说明开始,然后添加示例
在添加带标签的训练示例之前,优先优化字段说明。 清晰的描述通常能解决问题,而且不需要更多的数据。
添加低置信度训练示例
如果零样本提取的准确性或置信度低于预期,请将类似的文档作为训练示例添加到知识库,以提高提取的准确性。
优化音频和视频处理
上述定义字段架构的所有最佳做法也适用于音频和视频处理。 以下是特定于音频和视频内容的其他提示:
缩小语言选择范围
仅指定内容中期望使用的语言。 包括太多的语言会增加听录错误,因为系统必须猜测哪个语言正在说话。
例: 对于仅包含英语和西班牙语的内容,请仅配置这两种语言,而不是从所有可用语言自动检测。
避免将内容不必要地提取作为字段
语音脚本、光学字符识别(OCR)文本和视频关键帧在分析器输出中自动可用。 除非需要额外的处理(摘要、实体提取),否则不要为此内容定义字段。