你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Foundry Tools 中的 Azure 文档智能是什么?

此内容适用于:选中标记v4.0 (GA) | 以前的版本:蓝色复选标记v3.1 (GA)蓝色复选标记v3.0 (GA)blue-checkmarkv2.1 (GA)

此内容适用于:选中标记v3.1 (GA) | 最新版本:紫色复选标记v4.0 (GA) | 以前的版本:蓝色复选标记v3.0blue-checkmarkv2.1

此内容适用于:选中标记v3.0 (GA) | 最新版本:purple-checkmarkv4.0 (GA)紫色复原标记v3.1 | 以前的版本:blue-checkmarkv2.1

此内容适用于:选中标记v2.1 | 最新版本:blue-checkmarkv4.0 (GA)

Foundry Tools 中的 Azure 文档智能是基于云的 Foundry 工具 服务,可用于生成智能文档处理解决方案。 大量数据(跨越各种数据类型)存储在表单和文档中。 可以使用 Azure 文档智能有效地管理收集数据和处理的速度。 Azure 文档智能是改进作、明智的数据驱动决策和启发式创新的关键。 有关区域访问的信息,请参阅按区域划分的产品可用性

| ✔️ 文档分析模型 | ✔️ 预构建模型 | ✔️ 自定义模型 |

文档分析模型

文档分析(常规提取)模型可以从表单和文档中提取文本,并返回结构化的商业就绪内容,供贵组织采取行动、使用或开发。

读取 | 提取印刷体文本和手写文本。

布局 | 提取文本、表格和文档结构。

读取 | 提取印刷体
和手写体文本。

布局 | 提取文本、表格
和文档结构。

通用文档 | 提取文本、结构以及
键值对。

预生成的模型

可以使用预生成模型在应用和流中添加智能文档处理,而无需训练和生成自己的模型。

银行对账单 | 从银行对帐单中提取帐户信息和详细信息。

支票 | 从支票中提取相关信息。

合同 | 提取协议和参与方详细信息。

信用卡 | 提取付款卡信息。

发票 | 提取客户和供应商详细信息。

工资存根 | 提取工资存根详细信息。

收据 | 提取销售交易详细信息。

美国税务

美国统一税务 | 从支持的任何美国税单中提取。

美国税务 W-2 | 提取应纳税薪酬详细信息。

美国税务 1098 | 提取 1098 变体详细信息。

美国税务 1099 | 提取 1099 变体详细信息。

美国税务 1040 | 提取 1040 变体详细信息。

美国抵押贷款

美国抵押贷款 1003 | 提取贷款申请详细信息。

美国抵押贷款 1004 | 从鉴定中提取信息。

美国抵押贷款 1005 | 从就业验证中提取信息。

美国抵押贷款 1008 | 提取贷款转账详细信息。

美国抵押贷款披露 | 提取最终结清贷款条款。

个人标识

医疗保险卡 | 提取保险范围详细信息。

标识 | 提取验证详细信息。

结婚证 | 提取经过认证的婚姻信息。

发票 | 提取客户
和供应商详细信息。

收据 | 提取销售
交易详细信息。

标识 | 提取标识
和验证详细信息。

医疗保险卡 | 提取医疗保险详细信息。

名片 | 提取业务联系人详细信息。

合同 | 提取协议
和参与方详细信息。

美国税务 W-2 | 提取应纳税
薪酬详细信息。

美国税务 1098 | 提取 1098 变体详细信息。

自定义模型

自定义模型使用标记的数据集进行训练,以便从特定于你的用例的表单和文档中提取不同的数据。 可以组合独立自定义模型来创建组合模型。

文档字段提取模型

✔️ 文档字段提取模型经过训练,可以从文档中提取标记的字段。

自定义神经网络 | 从混合类型文档中提取数据。

自定义模板 | 从静态布局中提取数据。

自定义组合 | 使用模型集合提取数据。

自定义分类模型

✔️ 自定义分类器在调用提取模型之前识别文档类型。

自定义分类器 | 在调用提取模型前识别指定的文档类型(类)。

加载项功能

文档智能支持一些可选功能,你可以根据文档提取场景来启用或禁用这些功能:

分析功能

模型 ID 内容提取 查询字段 Paragraphs 段落角色 选定标记 Tables 键/值对 Languages Barcodes 文档分析 Formulas* 样式字体* 高分辨率* 可搜索 PDF
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040(各种) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(各种) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

✓ - 已启用
O - 可选
* - 高级功能会产生额外费用

模型和开发选项

使用文档智能来自动执行应用程序和工作流中的文档处理、增强数据驱动的策略并丰富文档搜索功能。 请使用下表中的链接详细了解每种模型并浏览开发选项。

Read

显示使用文档智能工作室的读取模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-read • 从文档中提取文本。
提取数据
• 数字化任何文档
• 合规性和审核
• 在翻译之前处理手写笔记
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

版式

显示使用文档智能工作室的布局模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
预生成布局 • 从文档中提取文本和布局信息。
提取数据
• 按结构编制文档索引和检索
• 财务和医疗报告分析
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

常规文档(在 2023-10-31-preview 中已弃用)

显示使用文档智能工作室的常规文档模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
预生成文档 • 从文档中提取文本、布局和键/值对。
提取数据和字段
● 键/值对提取
• 表格处理。
• 调查数据收集和分析
文档智能工作室
REST API

Invoice

显示使用文档智能工作室的发票模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
预生成的发票 • 从发票中提取关键信息。
提取数据和字段
• 应付帐款处理
• 自动税务记录和报告
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

Receipt

显示使用文档智能工作室的收据模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-receipt • 从收据中提取关键信息。
提取数据和字段
• 收据模型 v3.0 支持处理单页酒店收据。
• 支出管理
• 消费者行为数据分析
• 客户会员计划
• 商品退货处理
• 自动税务记录和报告
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

标识 (ID)

显示使用文档智能工作室的身份证件 (ID) 模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-idDocument ● 从护照和身份证中提取关键信息。
文档类型
• 从美国驾照中提取准驾车型、限制和车辆分类信息。
• 了解客户 (KYC) 金融服务指南合规性
• 医疗帐户管理
• 标识检查点和网关
● 酒店注册
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

Check

显示使用文档智能工作室的支票模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-check • 从支票中提取关键信息。
提取数据和字段
● 额度管理
● 自动化贷方管理
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

工资存根

显示使用文档智能工作室的工资存根模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-paystub • 从工资存根中提取关键信息。
提取数据和字段
● 员工工资单详细信息验证
● 就业欺诈检测
● 自动税务处理
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

银行对帐单

显示使用文档智能工作室的银行对帐单模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-bankStatement • 从银行对账单中提取关键信息。
提取数据和字段
● 税务处理用例
● 自动化计帐管理
● 信用借记管理
● 贷款文档处理
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

医疗保险卡

显示使用文档智能工作室的医疗保险卡模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-healthInsuranceCard.us • 从美国医疗保险卡中提取关键信息。
提取数据和字段
• 覆盖范围和资格验证
• 预测建模
• 基于值的分析
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

合同模型

显示使用文档智能工作室的合同模型提取的屏幕截图。

模型 ID Description 开发选项
prebuilt-contract • 提取合同协议和参与方详细信息。
提取数据和字段
文档智能工作室
REST API

C# SDK
Python SDK
Java SDK
JavaScript

信用卡模型

显示使用文档智能工作室的信用卡图像模型分析的屏幕截图。

模型 ID Description 开发选项
prebuilt-creditCard ● 提取合同协议和参与方详细信息。
提取数据和字段
文档智能工作室
REST API

C# SDK
Python SDK
Java SDK
JavaScript

结婚证模型

显示使用文档智能工作室的结婚证文档模型分析的屏幕截图。

模型 ID Description 开发选项
prebuilt-marriageCertificate.us ● 提取合同协议和参与方详细信息。
提取数据和字段
文档智能工作室
REST API

C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1003 表单

显示使用文档智能工作室的美国抵押贷款 1003 文档模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-mortgage.us.1003 ● 从 1003 贷款申请中提取关键信息。
提取数据和字段
Fannie Mae 和 Freddie Mac 文档要求 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1004 表单

显示使用文档智能工作室的美国抵押贷款 1004 文档模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-mortgage.us.1004 ● 从 1004 鉴定中提取关键信息。
提取数据和字段
● Fannie Mae 和 Freddie Mac 文档要求
● 统一住宅鉴定报告,帮助贷款方/客户了解标的物业的市场价值
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1005 表单

显示使用文档智能工作室的美国抵押贷款 1005 文档模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-mortgage.us.1005 ● 从 1005 就业验证中提取关键信息。
提取数据和字段
● Fannie Mae 和 Freddie Mac 文档要求
● 就业文档验证,以确定作为潜在抵押人的资格
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款 1008 表单

显示使用文档智能工作室的美国抵押贷款 1008 文档模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-mortgage.us.1008 ● 从统一核保和传递摘要中提取关键信息。
提取数据和字段。 使用汇总数据进行贷款承销处理
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国抵押贷款披露表单

显示使用文档智能工作室的美国抵押贷款结清披露文档模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-mortgage.us.closingDisclosure ● 从统一核保和传递摘要中提取关键信息。
提取数据和字段
抵押贷款最终细节要求 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税务 W-2 模型

显示使用文档智能工作室的 W-2 模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-tax.us.w2 从 IRS 美国 W2 税务表格中提取关键信息(2018 年 - 2021 年)。
● 自动化税务文档管理
● 抵押贷款申请处理
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税务 1098(和变体)表单

显示在文档智能工作室中分析的美国 1098 税务表的屏幕截图。

模型 ID Description 开发选项
prebuilt-tax.us.1098{variation} 从 1098 表单变体中提取关键信息。
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税务 1099(和变体)表单

显示在文档智能工作室中分析的美国 1099 税务表的屏幕截图。

模型 ID Description 开发选项
prebuilt-tax.us.1099{variation} 提取 1099 表单变体中的信息。
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国税务 1040(和变体)表单

显示使用文档智能工作室的美国税务 1040 税务表模型分析的屏幕截图。

模型 ID Description 开发选项
prebuilt-tax.us.1040{variation} 提取 1040 表单变体中的信息。
文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

美国统一税表单

模型 ID Description 开发选项
prebuilt-tax.us 从任何支持的美国税务表单中提取信息。 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

名片

显示使用文档智能工作室的名片模型分析的屏幕截图。

模型 ID Description 自动化用例 开发选项
prebuilt-businessCard • 从名片中提取关键信息。
提取数据和字段
潜在客户和营销管理 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript

自定义模型概述

显示使用文档智能工作室的自定义模型训练的屏幕截图。

About Description 自动化用例 开发选项
自定义模型 根据从一组有代表性的训练文档集创建的模型,将表单和文档中的信息提取到结构化数据中。 从特定于企业和用例的表单和文档中提取不同数据。 文档智能工作室
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

自定义神经网络

显示使用文档智能工作室的自定义神经网络模型分析的屏幕截图。

Note

若要训练自定义神经网络模型,请将 buildMode 属性设置为 neural。 有关详细信息,请参阅训练神经网络模型

About Description 自动化用例 开发选项
自定义神经网络模型 从结构化文档(调查、问卷)、半结构化文档(发票、采购订单)和非结构化文档(合同、信函)中提取带标记的数据。 从结构化和非结构化文档中提取文本数据、复选框和表格字段。 文档智能工作室
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

自定义模板

显示使用文档智能工作室的自定义模板模型分析的屏幕截图。

Note

若要训练自定义模板模型,请将 buildMode 属性设置为 template。 有关详细信息,请参阅训练模板模型

About Description 自动化用例 开发选项
自定义模板模型 从结构化和半结构化文档中提取带标签的值和字段。
使用定义的视觉模板或常见的视觉布局和表单从高度结构化的文档中提取关键数据。 文档智能工作室
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK

自定义组合

About Description 自动化用例 开发选项
组合自定义模型 组合模型的创建方式是采用自定义模型的集合并将其分配到基于你的表单类型构建的单个模型。 如果训练多个模型,并且要对它们进行分组以分析相似的表单类型(例如采购订单),那么此方法很有用 文档智能工作室
REST API
C# SDK
Java SDK
JavaScript SDK
Python SDK

自定义分类模型

显示文档智能工作室中的自定义分类模型标签的屏幕截图。

About Description 自动化用例 开发选项
组合分类模型 自定义分类模型结合了布局和语言功能,以检测、识别和分类输入文件中的文档。 ● 包含申请表、工资单和银行对账单的贷款申请资料包
● 一组扫描的发票
文档智能工作室
REST API

Azure 文档智能是一种基于云的 Foundry 工具, 面向开发人员构建智能文档处理解决方案。 Azure 文档智能基于机器学习以及文档理解技术应用光学字符识别(OCR),以便从文档中提取文本、表、结构和键/值对。 你还可以标记和训练自定义模型,以自动从结构化、半结构化和非结构化文档中提取数据。 若要详细了解每个模型,请参阅概念文章。

模型类型 模型名称
文档分析模型 布局分析模型
预生成的模型 发票模型
收据模型
身份证件 (ID) 模型
名片模型
自定义模型 自定义模型
组合模型

此内容适用于:选中标记v2.1 | 最新版本:blue-checkmarkv4.0 (GA)

文档智能模型和开发选项

Tip

若要获得增强的体验和高级质量的模型,请尝试文档智能 v3.0 工作室

  • v3.0 工作室支持任何使用 v2.1 标记数据进行训练的模型。
  • 有关从 v2.1 迁移到 v3.0 的详细信息,请参阅 API 迁移指南。

若要详细了解每个模型并浏览 API 参考信息,请使用下表中的链接。

Model Description 开发选项
布局分析 从表单和文档中提取和分析文本、选择标记、表格和范围框坐标 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
自定义模型 提取和分析与特定业务数据和用例相关的表单和文档中的数据 文档智能标记工具
REST API
示例标记工具
文档智能 Docker 容器
发票模型 自动提取和处理销售发票中的重要信息 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
收据模型 自动进行数据处理并提取销售收据中的重要信息。 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
身份证件 (ID) 模型 自动提取和处理美国驾驶证和国际护照中的重要信息 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器
名片模型 自动提取和处理名片中的重要信息 文档智能标记工具
REST API
客户端库 SDK
文档智能 Docker 容器

数据隐私和安全性

与所有 Foundry 工具一样,使用文档智能的开发人员应了解客户数据的Microsoft策略。 有关详细信息,请参阅文档智能的数据、隐私和安全性