你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
此内容适用于:
v2.1 | 最新版本:
v4.0 (GA)
Foundry Tools 中的 Azure 文档智能是基于云的 Foundry 工具 服务,可用于生成智能文档处理解决方案。 大量数据(跨越各种数据类型)存储在表单和文档中。 可以使用 Azure 文档智能有效地管理收集数据和处理的速度。 Azure 文档智能是改进作、明智的数据驱动决策和启发式创新的关键。 有关区域访问的信息,请参阅按区域划分的产品可用性。
| ✔️ 文档分析模型 | ✔️ 预构建模型 | ✔️ 自定义模型 |
文档分析模型
文档分析(常规提取)模型可以从表单和文档中提取文本,并返回结构化的商业就绪内容,供贵组织采取行动、使用或开发。
预生成的模型
可以使用预生成模型在应用和流中添加智能文档处理,而无需训练和生成自己的模型。
金融服务与法律
银行对账单 | 从银行对帐单中提取帐户信息和详细信息。
支票 | 从支票中提取相关信息。
合同 | 提取协议和参与方详细信息。
信用卡 | 提取付款卡信息。
发票 | 提取客户和供应商详细信息。
工资存根 | 提取工资存根详细信息。
收据 | 提取销售交易详细信息。
美国税务
美国统一税务 | 从支持的任何美国税单中提取。
美国税务 W-2 | 提取应纳税薪酬详细信息。
美国税务 1098 | 提取 1098 变体详细信息。
美国税务 1099 | 提取 1099 变体详细信息。
美国税务 1040 | 提取 1040 变体详细信息。
美国抵押贷款
美国抵押贷款 1003 | 提取贷款申请详细信息。
美国抵押贷款 1004 | 从鉴定中提取信息。
美国抵押贷款 1005 | 从就业验证中提取信息。
美国抵押贷款 1008 | 提取贷款转账详细信息。
美国抵押贷款披露 | 提取最终结清贷款条款。
个人标识
医疗保险卡 | 提取保险范围详细信息。
标识 | 提取验证详细信息。
结婚证 | 提取经过认证的婚姻信息。
发票 | 提取客户
和供应商详细信息。
收据 | 提取销售
交易详细信息。
标识 | 提取标识
和验证详细信息。
医疗保险卡 | 提取医疗保险详细信息。
名片 | 提取业务联系人详细信息。
合同 | 提取协议
和参与方详细信息。
美国税务 W-2 | 提取应纳税
薪酬详细信息。
美国税务 1098 | 提取 1098 变体详细信息。
自定义模型
自定义模型使用标记的数据集进行训练,以便从特定于你的用例的表单和文档中提取不同的数据。 可以组合独立自定义模型来创建组合模型。
文档字段提取模型
✔️ 文档字段提取模型经过训练,可以从文档中提取标记的字段。
自定义神经网络 | 从混合类型文档中提取数据。
自定义模板 | 从静态布局中提取数据。
自定义组合 | 使用模型集合提取数据。
自定义分类模型
✔️ 自定义分类器在调用提取模型之前识别文档类型。
自定义分类器 | 在调用提取模型前识别指定的文档类型(类)。
加载项功能
文档智能支持一些可选功能,你可以根据文档提取场景来启用或禁用这些功能:
分析功能
| 模型 ID | 内容提取 | 查询字段 | Paragraphs | 段落角色 | 选定标记 | Tables | 键/值对 | Languages | Barcodes | 文档分析 | Formulas* | 样式字体* | 高分辨率* | 可搜索 PDF |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
prebuilt-read |
✓ | ✓ | O | O | O | O | O | O | ||||||
prebuilt-layout |
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | O | O | O | O | ||
prebuilt-contract |
✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | ||||
prebuilt-healthInsuranceCard.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-idDocument |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-invoice |
✓ | ✓ | ✓ | ✓ | O | O | O | ✓ | O | O | O | |||
prebuilt-receipt |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-marriageCertificate.us |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-creditCard |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-check.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-payStub.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-bankStatement |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.1003 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1004 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1005 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1008 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.closingDisclosure |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w2 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w4 |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1040(各种) |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1095A |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1095C |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1098 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098E |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098T |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1099(各种) |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1099SSA |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
{ customModelName } |
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O |
✓ - 已启用
O - 可选
* - 高级功能会产生额外费用
模型和开发选项
使用文档智能来自动执行应用程序和工作流中的文档处理、增强数据驱动的策略并丰富文档搜索功能。 请使用下表中的链接详细了解每种模型并浏览开发选项。
Read
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-read | • 从文档中提取文本。 • 提取数据。 |
• 数字化任何文档 • 合规性和审核 • 在翻译之前处理手写笔记 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
版式
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预生成布局 | • 从文档中提取文本和布局信息。 • 提取数据。 |
• 按结构编制文档索引和检索 • 财务和医疗报告分析 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
常规文档(在 2023-10-31-preview 中已弃用)
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预生成文档 | • 从文档中提取文本、布局和键/值对。 • 提取数据和字段。 |
● 键/值对提取 • 表格处理。 • 调查数据收集和分析 |
• 文档智能工作室 • REST API |
Invoice
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预生成的发票 | • 从发票中提取关键信息。 • 提取数据和字段。 |
• 应付帐款处理 • 自动税务记录和报告 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
Receipt
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-receipt | • 从收据中提取关键信息。 • 提取数据和字段。 • 收据模型 v3.0 支持处理单页酒店收据。 |
• 支出管理 • 消费者行为数据分析 • 客户会员计划 • 商品退货处理 • 自动税务记录和报告 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
标识 (ID)
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-idDocument | ● 从护照和身份证中提取关键信息。 ● 文档类型。 • 从美国驾照中提取准驾车型、限制和车辆分类信息。 |
• 了解客户 (KYC) 金融服务指南合规性 • 医疗帐户管理 • 标识检查点和网关 ● 酒店注册 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
Check
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-check | • 从支票中提取关键信息。 • 提取数据和字段。 |
● 额度管理 ● 自动化贷方管理 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
工资存根
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-paystub | • 从工资存根中提取关键信息。 • 提取数据和字段。 |
● 员工工资单详细信息验证 ● 就业欺诈检测 ● 自动税务处理 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
银行对帐单
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-bankStatement | • 从银行对账单中提取关键信息。 • 提取数据和字段。 |
● 税务处理用例 ● 自动化计帐管理 ● 信用借记管理 ● 贷款文档处理 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
医疗保险卡
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-healthInsuranceCard.us | • 从美国医疗保险卡中提取关键信息。 • 提取数据和字段。 |
• 覆盖范围和资格验证 • 预测建模 • 基于值的分析 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
合同模型
| 模型 ID | Description | 开发选项 |
|---|---|---|
| prebuilt-contract | • 提取合同协议和参与方详细信息。 • 提取数据和字段。 |
• 文档智能工作室 • REST API• • C# SDK • Python SDK • Java SDK • JavaScript |
信用卡模型
| 模型 ID | Description | 开发选项 |
|---|---|---|
| prebuilt-creditCard | ● 提取合同协议和参与方详细信息。
• 提取数据和字段。 |
• 文档智能工作室 • REST API• • C# SDK • Python SDK • Java SDK • JavaScript |
结婚证模型
| 模型 ID | Description | 开发选项 |
|---|---|---|
| prebuilt-marriageCertificate.us | ● 提取合同协议和参与方详细信息。
• 提取数据和字段。 |
• 文档智能工作室 • REST API• • C# SDK • Python SDK • Java SDK • JavaScript |
美国抵押贷款 1003 表单
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1003 | ● 从 1003 贷款申请中提取关键信息。
• 提取数据和字段。 |
Fannie Mae 和 Freddie Mac 文档要求 | • 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国抵押贷款 1004 表单
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1004 | ● 从 1004 鉴定中提取关键信息。
• 提取数据和字段。 |
● Fannie Mae 和 Freddie Mac 文档要求 ● 统一住宅鉴定报告,帮助贷款方/客户了解标的物业的市场价值 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国抵押贷款 1005 表单
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1005 | ● 从 1005 就业验证中提取关键信息。
• 提取数据和字段。 |
● Fannie Mae 和 Freddie Mac 文档要求 ● 就业文档验证,以确定作为潜在抵押人的资格 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国抵押贷款 1008 表单
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1008 | ● 从统一核保和传递摘要中提取关键信息。
• 提取数据和字段。 使用汇总数据进行贷款承销处理 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国抵押贷款披露表单
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.closingDisclosure | ● 从统一核保和传递摘要中提取关键信息。
• 提取数据和字段。 |
抵押贷款最终细节要求 | • 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国税务 W-2 模型
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-tax.us.w2 | 从 IRS 美国 W2 税务表格中提取关键信息(2018 年 - 2021 年)。 |
● 自动化税务文档管理 ● 抵押贷款申请处理 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国税务 1098(和变体)表单
| 模型 ID | Description | 开发选项 |
|---|---|---|
prebuilt-tax.us.1098{variation} |
从 1098 表单变体中提取关键信息。 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国税务 1099(和变体)表单
| 模型 ID | Description | 开发选项 |
|---|---|---|
prebuilt-tax.us.1099{variation} |
提取 1099 表单变体中的信息。 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国税务 1040(和变体)表单
| 模型 ID | Description | 开发选项 |
|---|---|---|
prebuilt-tax.us.1040{variation} |
提取 1040 表单变体中的信息。 |
• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
美国统一税表单
| 模型 ID | Description | 开发选项 |
|---|---|---|
| prebuilt-tax.us | 从任何支持的美国税务表单中提取信息。 | • 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
名片
| 模型 ID | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-businessCard | • 从名片中提取关键信息。 • 提取数据和字段。 |
潜在客户和营销管理 | • 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript |
自定义模型概述
| About | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 自定义模型 | 根据从一组有代表性的训练文档集创建的模型,将表单和文档中的信息提取到结构化数据中。 | 从特定于企业和用例的表单和文档中提取不同数据。 | • 文档智能工作室 • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
自定义神经网络
Note
若要训练自定义神经网络模型,请将 buildMode 属性设置为 neural。 有关详细信息,请参阅训练神经网络模型。
| About | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 自定义神经网络模型 | 从结构化文档(调查、问卷)、半结构化文档(发票、采购订单)和非结构化文档(合同、信函)中提取带标记的数据。 | 从结构化和非结构化文档中提取文本数据、复选框和表格字段。 |
文档智能工作室 • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
自定义模板
Note
若要训练自定义模板模型,请将 buildMode 属性设置为 template。 有关详细信息,请参阅训练模板模型。
| About | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 自定义模板模型 | 从结构化和半结构化文档中提取带标签的值和字段。 |
使用定义的视觉模板或常见的视觉布局和表单从高度结构化的文档中提取关键数据。 | • 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
自定义组合
| About | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 组合自定义模型 | 组合模型的创建方式是采用自定义模型的集合并将其分配到基于你的表单类型构建的单个模型。 | 如果训练多个模型,并且要对它们进行分组以分析相似的表单类型(例如采购订单),那么此方法很有用 | • 文档智能工作室 • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
自定义分类模型
| About | Description | 自动化用例 | 开发选项 |
|---|---|---|---|
| 组合分类模型 | 自定义分类模型结合了布局和语言功能,以检测、识别和分类输入文件中的文档。 | ● 包含申请表、工资单和银行对账单的贷款申请资料包 ● 一组扫描的发票 |
● 文档智能工作室 ● REST API |
Azure 文档智能是一种基于云的 Foundry 工具, 面向开发人员构建智能文档处理解决方案。 Azure 文档智能基于机器学习以及文档理解技术应用光学字符识别(OCR),以便从文档中提取文本、表、结构和键/值对。 你还可以标记和训练自定义模型,以自动从结构化、半结构化和非结构化文档中提取数据。 若要详细了解每个模型,请参阅概念文章。
| 模型类型 | 模型名称 |
|---|---|
| 文档分析模型 | • 布局分析模型 |
| 预生成的模型 | ● 发票模型 ● 收据模型 ● 身份证件 (ID) 模型 ● 名片模型 |
| 自定义模型 | • 自定义模型 • 组合模型 |
此内容适用于:
v2.1 | 最新版本:
v4.0 (GA)
文档智能模型和开发选项
Tip
若要获得增强的体验和高级质量的模型,请尝试文档智能 v3.0 工作室:
- v3.0 工作室支持任何使用 v2.1 标记数据进行训练的模型。
- 有关从 v2.1 迁移到 v3.0 的详细信息,请参阅 API 迁移指南。
若要详细了解每个模型并浏览 API 参考信息,请使用下表中的链接。
| Model | Description | 开发选项 |
|---|---|---|
| 布局分析 | 从表单和文档中提取和分析文本、选择标记、表格和范围框坐标 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 自定义模型 | 提取和分析与特定业务数据和用例相关的表单和文档中的数据 | • 文档智能标记工具 • REST API • 示例标记工具 • 文档智能 Docker 容器 |
| 发票模型 | 自动提取和处理销售发票中的重要信息 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 收据模型 | 自动进行数据处理并提取销售收据中的重要信息。 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 身份证件 (ID) 模型 | 自动提取和处理美国驾驶证和国际护照中的重要信息 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 名片模型 | 自动提取和处理名片中的重要信息 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
数据隐私和安全性
与所有 Foundry 工具一样,使用文档智能的开发人员应了解客户数据的Microsoft策略。 有关详细信息,请参阅文档智能的数据、隐私和安全性。
相关内容
- 使用文档智能示例标记工具处理自己的表单和文档。
- 完成文档智能快速入门,然后使用所选的开发语言创建文档处理应用。