Azure AI 文档智能(表单识别器)

从 PDF、图像或Microsoft Office 文档和表单中提取文本(印刷体和手写 OCR)和其他信息(表、复选框、字段/键值对),或基于预先训练的模型(布局、发票、收据、ID、名片)或由一组代表培训表单(使用 AI 提供支持的文档理解)创建的自定义模型(布局、发票、收据、ID、名片)或自定义模型。

此连接器在以下产品和区域中可用:

服务 Class 区域
Copilot Studio 标准 除以下各项外的所有 Power Automate 区域
     - 美国国防部(DoD)
逻辑应用程序 标准 除以下各项外的所有 逻辑应用区域
     - 美国国防部(DoD)
Power Apps - 不可用
Power Automate 标准 除以下各项外的所有 Power Automate 区域
     - 美国国防部(DoD)
联系人​​
Name Microsoft
URL https://aka.ms/formrecognizer
Email formrecog_contact@microsoft.com
连接器元数据
发布者 Microsoft
网站 https://aka.ms/formrecognizer
隐私策略 https://aka.ms/form-recognizer/privacy
类别 人工智能;商业智能

Azure AI 文档智能(前表单识别器)连接器提供与 Azure AI 文档智能的集成。 它允许分析和提取表单、发票、收据、名片、ID 文档和其他多种文档类型的信息。

先决条件

若要使用此集成,需要在 Azure 门户中使用 Azure AI 文档智能资源 。 创建资源 链接。 你将获得用于对应用程序进行身份验证的终结点和密钥。 若要建立连接,请提供帐户密钥、站点 URL 并选择“ 创建连接”。 有关连接的作成本, 请在此处了解详细信息。

如何获取凭据

  1. 在 Azure 门户中打开文档智能资源(请参阅 先决条件)。
  2. 资源管理下选择密钥和终结点
  3. 复制 终结点密钥 ,并使用它们创建新的连接。

连接器入门

尝试使用文档智能连接器的最简单方法是使用任何预生成模型(预生成发票、预生成布局等)。 提供文档的 PDF 或图像。 根据文档类型分析使用连接器作,并检查检测到的字段。 此处的完整模型和支持的功能列表。

正在创建连接

连接器支持以下身份验证类型:

API 密钥 提供文档 Intellignce 资源名称和 API 密钥。 所有区域 可共享
逻辑应用托管标识 使用 LogicApps 托管标识创建连接 仅限 LOGICAPPS 可共享
Microsoft Entra ID 集成 使用 Microsoft Entra ID 访问 所有区域 不可共享
默认值 [已弃用] 此选项仅适用于没有显式身份验证类型的较旧连接,并且仅用于向后兼容性。 所有区域 不可共享

API 密钥

身份验证 ID:keyBasedAuth

适用:所有区域

提供文档 Intellignce 资源名称和 API 密钥。

这是可共享的连接。 如果 Power App 与其他用户共享,则连接也会共享。 有关详细信息,请参阅 画布应用的连接器概述 - Power Apps |Microsoft Docs

Name 类型 Description 必选
帐户密钥 securestring 文档智能帐户密钥 True
终结点 URL 字符串 文档智能终结点 URL (示例: https://your-documentintelligence-resource.cognitiveservices.azure.com/ True

逻辑应用托管标识

身份验证 ID:managedIdentityAuth

适用:仅限 LOGICAPPS

使用 LogicApps 托管标识创建连接

这是可共享的连接。 如果 Power App 与其他用户共享,则连接也会共享。 有关详细信息,请参阅 画布应用的连接器概述 - Power Apps |Microsoft Docs

Name 类型 Description 必选
LogicApps 托管标识 managedIdentity 使用逻辑应用托管标识登录 True
终结点 URL 字符串 文档智能终结点 URL (示例: https://your-documentintelligence-resource.cognitiveservices.azure.com/ True

Microsoft Entra ID集成

身份验证 ID:oauth

适用:所有区域

使用 Microsoft Entra ID 访问

这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。

Name 类型 Description 必选
终结点 URL 字符串 文档智能终结点 URL (示例: https://your-documentintelligence-resource.cognitiveservices.azure.com/ True

默认值 [已弃用]

适用:所有区域

此选项仅适用于没有显式身份验证类型的较旧连接,并且仅用于向后兼容性。

这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。

Name 类型 Description 必选
帐户密钥 securestring 文档智能帐户密钥 True
终结点 URL 字符串 文档智能终结点 URL (示例: https://your-documentintelligence-resource.cognitiveservices.azure.com/ True

限制

名称 调用 续订期
每个连接的 API 调用数 1200 60 秒

操作

使用文档分类器对文档进行分类(v3.1 API)

使用文档分类器(v3.1 API)对文档进行分类。

使用文档分类器对文档进行分类(v4.x API)

使用文档分类器(v4.x API)对文档进行分类。

分析 ID 文档 (已弃用) [已弃用]

从给定的 ID 文档中提取字段文本和语义值(已弃用)。

分析发票 (已弃用) [已弃用]

从给定发票文档中提取字段文本和语义值(已弃用)。

分析名片 (已弃用) [已弃用]

从给定名片文档中提取字段文本和语义值(已弃用)。

分析布局 (已弃用) [已弃用]

从给定文档中提取文本和布局信息(已弃用)。

分析收据 (已弃用) [已弃用]

从给定收据文档中提取字段文本和语义值(已弃用)。

分析自定义表单 (已弃用) [已弃用]

从给定文档中提取键值对、表和语义值(已弃用)。

分析预生成模型或自定义模型的文档(v3.x API)

从给定文档(v3.x API)中提取键值对、表和语义值。

分析预生成模型或自定义模型的文档(v4.x API)

从给定文档(v4.x API)中提取键值对、表和语义值。

使用文档分类器对文档进行分类(v3.1 API)

使用文档分类器(v3.1 API)对文档进行分类。

参数

名称 密钥 必需 类型 说明
分类器标识符
classifierId True string

格式 - [a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}。 唯一分类器名称。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号分隔的页码和范围(例如“2,5-7”)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取信息。 如果未设置,将处理所有页面。

区域设置
locale string

文本识别和文档分析的区域设置提示。 值只能包含语言代码(例如“en”、“fr”)或 BCP 47 语言标记(例如“en-US”)。

字符串索引类型
stringIndexType string

用于计算字符串偏移量和长度的方法。 支持的选项:textElements、unicodeCodePoint、utf16CodeUnit。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG、PNG、BMP、TIFF)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

分析作的状态和结果。

使用文档分类器对文档进行分类(v4.x API)

使用文档分类器(v4.x API)对文档进行分类。

参数

名称 密钥 必需 类型 说明
文档智能 API 版本
api-version True string

文档智能 API 版本。

分类器标识符
classifierId True string

格式 - [a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}。 唯一分类器名称。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG、PNG、BMP、TIFF)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

拆分模式
split string

文件拆分行为。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号分隔的页码和范围(例如“2,5-7”)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取信息。 如果未设置,将处理所有页面。

区域设置
locale string

文本识别和文档分析的区域设置提示。 值只能包含语言代码(例如“en”、“fr”)或 BCP 47 语言标记(例如“en-US”)。

字符串索引类型
stringIndexType string

用于计算字符串偏移量和长度的方法。 支持的选项:textElements、unicodeCodePoint、utf16CodeUnit。

返回

分析作的状态和结果。

分析 ID 文档 (已弃用) [已弃用]

从给定的 ID 文档中提取字段文本和语义值(已弃用)。

参数

名称 密钥 必需 类型 说明
包括文本详细信息
includeTextDetails boolean

在结果中包含文本行和元素引用。 默认值:True(仅适用于 FR 连接器)。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG 或 PNG)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

排队分析作的状态和结果。

分析发票 (已弃用) [已弃用]

从给定发票文档中提取字段文本和语义值(已弃用)。

参数

名称 密钥 必需 类型 说明
包括文本详细信息
includeTextDetails boolean

在结果中包含文本行和元素引用。 默认值:True(仅适用于 FR 连接器)。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

区域设置
locale string

发票的区域设置。 支持的区域设置包括:en-US。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG 或 PNG)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

排队分析作的状态和结果。

分析名片 (已弃用) [已弃用]

从给定名片文档中提取字段文本和语义值(已弃用)。

参数

名称 密钥 必需 类型 说明
包括文本详细信息
includeTextDetails boolean

在结果中包含文本行和元素引用。 默认值:True(仅适用于 FR 连接器)。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

区域设置
locale string

发票的区域设置。 支持的区域设置包括:en-US。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG 或 PNG)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

排队分析作的状态和结果。

分析布局 (已弃用) [已弃用]

从给定文档中提取文本和布局信息(已弃用)。

参数

名称 密钥 必需 类型 说明
pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

语言
language string

文档中文本的 BCP-47 语言代码。

阅读顺序
readingOrder string

用于指定在对提取文本元素进行排序时应应用读取顺序算法的可选参数。 可以是“basic”或“natural”。 如果未指定,则默认为 basic。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG 或 PNG)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

排队分析作的状态和结果。

分析收据 (已弃用) [已弃用]

从给定收据文档中提取字段文本和语义值(已弃用)。

参数

名称 密钥 必需 类型 说明
包括文本详细信息
includeTextDetails boolean

在结果中包含文本行和元素引用。 默认值:True(仅适用于 FR 连接器)。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

区域设置
locale string

发票的区域设置。 支持的区域设置包括:en-US。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG 或 PNG)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

排队分析作的状态和结果。

分析自定义表单 (已弃用) [已弃用]

从给定文档中提取键值对、表和语义值(已弃用)。

参数

名称 密钥 必需 类型 说明
模型标识符
modelId True string

格式 - uuid。 模型标识符。

包括文本详细信息
includeTextDetails boolean

在结果中包含文本行和元素引用。 默认值:True(仅适用于 FR 连接器)。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG 或 PNG)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

排队分析作的状态和结果。

分析预生成模型或自定义模型的文档(v3.x API)

从给定文档(v3.x API)中提取键值对、表和语义值。

参数

名称 密钥 必需 类型 说明
文档智能 API 版本
api-version True string

文档智能 API 版本。

模型标识符
modelId True string

预生成 modelIds:prebuilt-read、prebuilt-layout、prebuilt-document、prebuilt-businessCard、prebuilt-idDocument、prebuilt-invoice、prebuilt-receipt、prebuilt-tax.us.w2、prebuilt-vaccinationCard、prebuilt-healthInsuranceCard.us。 自定义 modelId 格式 - [a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}。 唯一的模型名称。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

区域设置
locale string

文本识别和文档分析的区域设置提示。 值只能包含语言代码(例如“en”、“fr”)或 BCP 47 语言标记(例如“en-US”)。

字符串索引类型
stringIndexType string

用于计算字符串偏移量和长度的方法。 支持的选项:textElements、unicodeCodePoint、utf16CodeUnit。

可选和高级功能
features array

可选分析功能列表(如 ocrHighResolution、语言、条形码、公式、keyValuePairs 和 styleFont)。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG、PNG、BMP、TIFF)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

返回

分析作的状态和结果。

分析预生成模型或自定义模型的文档(v4.x API)

从给定文档(v4.x API)中提取键值对、表和语义值。

参数

名称 密钥 必需 类型 说明
文档智能 API 版本
api-version True string

文档智能 API 版本。

模型标识符
modelId True string

预生成 modelIds:预生成-read、预生成布局、预生成-businessCard、 prebuilt-idDocument、prebuilt-invoice、prebuilt-receipt、prebuilt-tax.us.w2、prebuilt-vaccinationCard、prebuilt-healthInsuranceCard.us、prebuilt-tax.us.1098、prebuilt-tax.us.1098E、prebuilt-tax.us.1098T、prebuilt-contract 等。自定义 modelId 格式 - [a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}。 唯一的模型名称。

文档/图像文件内容
inputFileContent binary

要分析的 PDF 文档或图像(JPG、PNG、BMP、TIFF)文件。

文档/图像 URL
inputFileUrl string

输入文件的 URL 路径。 替代文档/图像文件内容。

pages string

多页 PDF 和 TIFF 文档的页面选择,通过输入以逗号(例如“2,5-7”分隔的页码和范围)从各个页面和一系列页面(如第 2 页和第 5-7 页)中提取发票信息。 如果未设置,将处理所有页面。

区域设置
locale string

文本识别和文档分析的区域设置提示。 值只能包含语言代码(例如“en”、“fr”)或 BCP 47 语言标记(例如“en-US”)。

字符串索引类型
stringIndexType string

用于计算字符串偏移量和长度的方法。 支持的选项:textElements、unicodeCodePoint、utf16CodeUnit。

可选和高级功能
features array

可选分析功能列表(如 ocrHighResolution、语言、条形码、公式、keyValuePairs、styleFont 和 queryFields)。

查询字段
queryFields array

要提取的其他字段的列表。 例如: “NumberOfGuests,StoreNumber”

输出内容格式
outputContentFormat string

分析结果顶级内容的格式。

返回

分析作的状态和结果。

定义

OperationStatus

排队作的状态。

排队作的状态。

LayoutAnalyzeOperationResult

排队分析作的状态和结果。

名称 路径 类型 说明
状态
status OperationStatus

排队作的状态。

createdDateTime
createdDateTime string

已提交分析作的日期和时间(UTC)。

lastUpdatedDateTime
lastUpdatedDateTime string

上次更新状态的日期和时间(UTC)。

analyzeResult
analyzeResult LayoutAnalyzeResult

分析作结果。

InvoiceAnalyzeOperationResult

排队分析作的状态和结果。

名称 路径 类型 说明
状态
status OperationStatus

排队作的状态。

createdDateTime
createdDateTime string

已提交分析作的日期和时间(UTC)。

lastUpdatedDateTime
lastUpdatedDateTime string

上次更新状态的日期和时间(UTC)。

analyzeResult
analyzeResult InvoiceAnalyzeResult

分析作结果。

BusinessCardAnalyzeOperationResult

排队分析作的状态和结果。

名称 路径 类型 说明
状态
status OperationStatus

排队作的状态。

createdDateTime
createdDateTime string

已提交分析作的日期和时间(UTC)。

lastUpdatedDateTime
lastUpdatedDateTime string

上次更新状态的日期和时间(UTC)。

analyzeResult
analyzeResult BusinessCardAnalyzeResult

分析作结果。

ReceiptAnalyzeOperationResult

排队分析作的状态和结果。

名称 路径 类型 说明
状态
status OperationStatus

排队作的状态。

createdDateTime
createdDateTime string

已提交分析作的日期和时间(UTC)。

lastUpdatedDateTime
lastUpdatedDateTime string

上次更新状态的日期和时间(UTC)。

analyzeResult
analyzeResult ReceiptAnalyzeResult

分析作结果。

IdAnalyzeOperationResult

排队分析作的状态和结果。

名称 路径 类型 说明
状态
status OperationStatus

排队作的状态。

createdDateTime
createdDateTime string

已提交分析作的日期和时间(UTC)。

lastUpdatedDateTime
lastUpdatedDateTime string

上次更新状态的日期和时间(UTC)。

analyzeResult
analyzeResult IdAnalyzeResult

分析作结果。

CustomFormsAnalyzeOperationResult

排队分析作的状态和结果。

名称 路径 类型 说明
状态
status OperationStatus

排队作的状态。

createdDateTime
createdDateTime string

已提交分析作的日期和时间(UTC)。

lastUpdatedDateTime
lastUpdatedDateTime string

上次更新状态的日期和时间(UTC)。

analyzeResult
analyzeResult CustomFormsAnalyzeResult

分析作结果。

FormOperationError

作期间报告的错误。

名称 路径 类型 说明
消息
message string

错误消息。

LayoutAnalyzeResult

分析作结果。

名称 路径 类型 说明
版本
version string

用于此结果的架构的版本。

readResults
readResults array of ReadResult

从输入中提取的文本。

pageResults
pageResults array of PageResult

从输入中提取的页面级信息。

错误
errors array of FormOperationError

分析作期间报告的错误列表。

InvoiceAnalyzeResult

分析作结果。

名称 路径 类型 说明
版本
version string

用于此结果的架构的版本。

readResults
readResults array of ReadResult

从输入中提取的文本。

pageResults
pageResults array of PageResult

从输入中提取的页面级信息。

documentResults
documentResults array of InvoiceDocumentResult

从输入中提取的文档级信息。

错误
errors array of FormOperationError

分析作期间报告的错误列表。

BusinessCardAnalyzeResult

分析作结果。

名称 路径 类型 说明
版本
version string

用于此结果的架构的版本。

readResults
readResults array of ReadResult

从输入中提取的文本。

pageResults
pageResults array of PageResult

从输入中提取的页面级信息。

documentResults
documentResults array of BusinessCardDocumentResult

从输入中提取的文档级信息。

错误
errors array of FormOperationError

分析作期间报告的错误列表。

ReceiptAnalyzeResult

分析作结果。

名称 路径 类型 说明
版本
version string

用于此结果的架构的版本。

readResults
readResults array of ReadResult

从输入中提取的文本。

pageResults
pageResults array of PageResult

从输入中提取的页面级信息。

documentResults
documentResults array of ReceiptDocumentResult

从输入中提取的文档级信息。

错误
errors array of FormOperationError

分析作期间报告的错误列表。

IdAnalyzeResult

分析作结果。

名称 路径 类型 说明
版本
version string

用于此结果的架构的版本。

readResults
readResults array of ReadResult

从输入中提取的文本。

pageResults
pageResults array of PageResult

从输入中提取的页面级信息。

documentResults
documentResults array of IdDocumentResult

从输入中提取的文档级信息。

错误
errors array of FormOperationError

分析作期间报告的错误列表。

CustomFormsAnalyzeResult

分析作结果。

名称 路径 类型 说明
版本
version string

用于此结果的架构的版本。

readResults
readResults array of ReadResult

从输入中提取的文本。

pageResults
pageResults array of PageResult

从输入中提取的页面级信息。

documentResults
documentResults array of CustomFormsDocumentResult

从输入中提取的文档级信息。

错误
errors array of FormOperationError

分析作期间报告的错误列表。

ReadResult

从输入文档中的页面中提取的文本。

名称 路径 类型 说明
页面
page integer

输入文档中基于 1 的页码。

角度
angle float

文本的顺时针方向的一般方向,以度为单位(-180,180)。

width
width float

图像/PDF 的宽度(以像素/英寸为单位)。

身高
height float

图像/PDF 的高度(以像素/英寸为单位)。

单位
unit string

宽度、高度和 boundingBox 属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

线
lines array of TextLine

如果 includeTextDetails 设置为 true,则会列出已识别的文本行。 返回的最大行数是每页 300 行。 这些行按从上到下、从左到右排序,但在某些情况下,以较高的优先级处理邻近度。 由于排序顺序取决于检测到的文本,因此可能会更改图像和 OCR 版本更新。 因此,业务逻辑应基于实际行位置而不是订单生成。

TextLine

一个表示提取的文本行的对象。

名称 路径 类型 说明
文本消息
text string

行的文本内容。

boundingBox
boundingBox BoundingBox

四边形边界框,指定相对于原始图像左上角的坐标。 八个数字表示四点,从左上角相对于文本方向顺时针。 对于图像,以像素为单位测量 (x, y) 坐标。 对于 PDF,以英寸为单位测量 (x, y) 坐标。

words
words array of TextWord

文本行中的单词列表。

TextWord

一个表示单词的对象。

名称 路径 类型 说明
文本消息
text string

单词的文本内容。

boundingBox
boundingBox BoundingBox

四边形边界框,指定相对于原始图像左上角的坐标。 八个数字表示四点,从左上角相对于文本方向顺时针。 对于图像,以像素为单位测量 (x, y) 坐标。 对于 PDF,以英寸为单位测量 (x, y) 坐标。

可信度
confidence Confidence

置信度值。

BoundingBox

四边形边界框,指定相对于原始图像左上角的坐标。 八个数字表示四点,从左上角相对于文本方向顺时针。 对于图像,以像素为单位测量 (x, y) 坐标。 对于 PDF,以英寸为单位测量 (x, y) 坐标。

名称 路径 类型 说明
物品
float

PageResult

从单个页面提取的信息。

名称 路径 类型 说明
页面
page integer

页码。

clusterId
clusterId integer

群集标识符。

keyValuePairs
keyValuePairs array of KeyValuePair

从页面中提取的键值对列表。

tables
tables array of DataTable

从页面中提取的数据表列表。

KeyValuePair

有关提取的键值对的信息。

名称 路径 类型 说明
标签
label string

键/值对项的用户定义标签。

关键值
key KeyValueElement

有关键值对中提取的键或值的信息。

value
value KeyValueElement

有关键值对中提取的键或值的信息。

可信度
confidence Confidence

置信度值。

KeyValueElement

有关键值对中提取的键或值的信息。

名称 路径 类型 说明
文本消息
text string

键或值的文本内容。

boundingBox
boundingBox BoundingBox

四边形边界框,指定相对于原始图像左上角的坐标。 八个数字表示四点,从左上角相对于文本方向顺时针。 对于图像,以像素为单位测量 (x, y) 坐标。 对于 PDF,以英寸为单位测量 (x, y) 坐标。

元素
elements array of ElementReference

如果 includeTextDetails 设置为 true,则构成此键或值的文本元素的引用列表。

ElementReference

对行或单词的引用。

对行或单词的引用。

DataTable

有关页面中包含的提取表的信息。

名称 路径 类型 说明
rows integer

行数。

columns
columns integer

列数。

细胞
cells array of DataTableCell

表格中包含的单元格列表。

DataTableCell

有关表中提取的单元格的信息。

名称 路径 类型 说明
rowIndex
rowIndex integer

单元格的行索引。

columnIndex
columnIndex integer

单元格的列索引。

rowSpan (行跨度)
rowSpan integer

此单元格跨越的行数。

columnSpan
columnSpan integer

此单元格跨越的列数。

文本消息
text string

单元格的文本内容。

boundingBox
boundingBox BoundingBox

四边形边界框,指定相对于原始图像左上角的坐标。 八个数字表示四点,从左上角相对于文本方向顺时针。 对于图像,以像素为单位测量 (x, y) 坐标。 对于 PDF,以英寸为单位测量 (x, y) 坐标。

元素
elements array of ElementReference

如果 includeTextDetails 设置为 true,则为构成此表单元格的文本元素的引用列表。

isHeader
isHeader boolean

如果当前单元格是标题单元格,则返回。

isFooter
isFooter boolean

返回当前单元格的页脚单元格。

InvoiceDocumentResult

对应于输入文档的一组提取字段。

名称 路径 类型 说明
docType
docType string

文档类型。

pageRange
pageRange array of integer

找到文档的第一页和最后一页码。

fields
fields InvoiceFields

2.1 的发票字段。

BusinessCardDocumentResult

对应于输入文档的一组提取字段。

名称 路径 类型 说明
docType
docType string

文档类型。

pageRange
pageRange array of integer

找到文档的第一页和最后一页码。

fields
fields BusinessCardFields

2.1 的名片字段。

CustomFormsDocumentResult

对应于输入文档的一组提取字段。

名称 路径 类型 说明
docType
docType string

文档类型。

pageRange
pageRange array of integer

找到文档的第一页和最后一页码。

Fields
_fields array of CustomFormsFields

具有 fieldName 和 fieldValue 属性的字段数组。

ReceiptDocumentResult

对应于输入文档的一组提取字段。

名称 路径 类型 说明
docType
docType string

文档类型。

pageRange
pageRange array of integer

找到文档的第一页和最后一页码。

fields
fields ReceiptFields

2.1 的 Receiptfields。

IdDocumentResult

对应于输入文档的一组提取字段。

名称 路径 类型 说明
docType
docType string

文档类型。

pageRange
pageRange array of integer

找到文档的第一页和最后一页码。

fields
fields IdFields

2.1 的 ID 文档字段。

CustomFormsFields

自定义窗体字段。

名称 路径 类型 说明
字段名称
fieldName string
字段值
fieldValue FieldValue

预测字段值对象。

InvoiceFields

2.1 的发票字段。

名称 路径 类型 说明
到期金额(文本)
AmountDue.text string

返回发票上写到的到期金额。

到期金额(数字)
AmountDue.valueNumber number

格式为数字。 示例:1234.98。

到期金额的置信度
AmountDue.confidence float

模型在其预测中有多自信。

帐单邮寄地址
BillingAddress.text string
计费地址的置信度
BillingAddress.confidence float

模型在其预测中有多自信。

帐单地址收件人
BillingAddressRecipient.text string
计费地址收件人的信心
BillingAddressRecipient.confidence float

模型在其预测中有多自信。

客户地址
CustomerAddress.text string
客户地址的信心
CustomerAddress.confidence float

模型在其预测中有多自信。

客户地址收件人
CustomerAddressRecipient.text string
客户地址收件人的信心
CustomerAddressRecipient.confidence float

模型在其预测中有多自信。

客户 ID
CustomerId.text string
客户 ID 的置信度
CustomerId.confidence float

模型在其预测中有多自信。

客户名称
CustomerName.text string
客户名称的置信度
CustomerName.confidence float

模型在其预测中有多自信。

截止日期(文本)
DueDate.text string

返回发票上写的截止日期。

截止日期(日期)
DueDate.valueDate date

格式为日期。 示例:2019-05-31。

截止日期的置信度
DueDate.confidence float

模型在其预测中有多自信。

发票日期(文本)
InvoiceDate.text string

返回发票上写的发票日期。

发票日期(日期)
InvoiceDate.valueDate date

格式为日期。 示例:2019-05-31。

发票日期的置信度
InvoiceDate.confidence float

模型在其预测中有多自信。

发票 ID
InvoiceId.text string
发票 ID 的置信度
InvoiceId.confidence float

模型在其预测中有多自信。

发票总计(文本)
InvoiceTotal.text string

返回发票上写的发票总计。

发票总数(编号)
InvoiceTotal.valueNumber number

格式为数字。 示例:1234.98。

发票总计的置信度
InvoiceTotal.confidence float

模型在其预测中有多自信。

以前的未付余额(文本)
PreviousUnpaidBalance.text string

返回发票上写的先前未付余额。

以前的未付余额(数字)
PreviousUnpaidBalance.valueNumber number

格式为数字。 示例:1234.98。

以前未付余额的信心
PreviousUnpaidBalance.confidence float

模型在其预测中有多自信。

采购订单
PurchaseOrder.text string
采购订单的置信度
PurchaseOrder.confidence float

模型在其预测中有多自信。

汇款地址
RemittanceAddress.text string
汇款地址的置信度
RemittanceAddress.confidence float

模型在其预测中有多自信。

汇款地址收件人
RemittanceAddressRecipient.text string
汇款地址收件人的信心
RemittanceAddressRecipient.confidence float

模型在其预测中有多自信。

服务地址
ServiceAddress.text string
服务地址的置信度
ServiceAddress.confidence float

模型在其预测中有多自信。

服务地址收件人
ServiceAddressRecipient.text string
服务地址收件人的信心
ServiceAddressRecipient.confidence float

模型在其预测中有多自信。

服务结束日期(文本)
ServiceEndDate.text string

返回发票上写成的服务结束日期。

服务结束日期(日期)
ServiceEndDate.valueDate date

格式为日期。 示例:2019-05-31。

服务结束日期的置信度
ServiceEndDate.confidence float

模型在其预测中有多自信。

服务开始日期(文本)
ServiceStartDate.text string

返回发票上写的服务开始日期。

服务开始日期(日期)
ServiceStartDate.valueDate date

格式为日期。 示例:2019-05-31。

服务开始日期的置信度
ServiceStartDate.confidence float

模型在其预测中有多自信。

装运地址
ShippingAddress.text string
寄送地址的置信度
ShippingAddress.confidence float

模型在其预测中有多自信。

寄送地址收件人
ShippingAddressRecipient.text string
寄送地址收件人的信心
ShippingAddressRecipient.confidence float

模型在其预测中有多自信。

分类汇总(文本)
SubTotal.text string

返回发票上写的分类汇总。

小计 (数字)
SubTotal.valueNumber number

格式为数字。 示例:1234.98。

分类汇总的置信度
SubTotal.confidence float

模型在其预测中有多自信。

总税款(文本)
TotalTax.text string

返回发票上写的总税款。

总税款(数字)
TotalTax.valueNumber number

格式为数字。 示例:1234.98。

总税的置信度
TotalTax.confidence float

模型在其预测中有多自信。

供应商地址
VendorAddress.text string
供应商地址的置信度
VendorAddress.confidence float

模型在其预测中有多自信。

供应商地址收件人
VendorAddressRecipient.text string
供应商地址收件人的信心
VendorAddressRecipient.confidence float

模型在其预测中有多自信。

供应商名称
VendorName.text string
供应商名称的置信度
VendorName.confidence float

模型在其预测中有多自信。

物品
Items.valueArray array of object

行项数组

金额(文本)
Items.valueArray.valueObject.Amount.text string

返回发票上写的金额。

金额(数字)
Items.valueArray.valueObject.Amount.valueNumber number

格式为数字。 示例:12。

金额的置信度
Items.valueArray.valueObject.Amount.confidence float

模型在其预测中有多自信。

Description
Items.valueArray.valueObject.Description.text string
描述置信度
Items.valueArray.valueObject.Description.confidence float

模型在其预测中有多自信。

数量(文本)
Items.valueArray.valueObject.Quantity.text string

返回发票上写成的数量。

数量(数字)
Items.valueArray.valueObject.Quantity.valueNumber number

格式为数字。 示例:12。

数量置信度
Items.valueArray.valueObject.Quantity.confidence float

模型在其预测中有多自信。

单价(文本)
Items.valueArray.valueObject.UnitPrice.text string

返回发票上写成的单价。

单价(数字)
Items.valueArray.valueObject.UnitPrice.valueNumber number

格式为数字。 示例:12。

单价置信度
Items.valueArray.valueObject.UnitPrice.confidence float

模型在其预测中有多自信。

产品代码
Items.valueArray.valueObject.ProductCode.text string
代码示例的置信度
Items.valueArray.valueObject.ProductCode.confidence float

模型在其预测中有多自信。

单位
Items.valueArray.valueObject.Unit.text string
单位的置信度
Items.valueArray.valueObject.Unit.confidence float

模型在其预测中有多自信。

日期(文本)
Items.valueArray.valueObject.Date.text string

返回发票上写的日期。

日期(日期)
Items.valueArray.valueObject.Date.valueDate date

格式为日期。 示例:2019-05-31。

日期的置信度
Items.valueArray.valueObject.Date.confidence float

模型在其预测中有多自信。

税(文本)
Items.valueArray.valueObject.Tax.text string

返回发票上写的税款。

税(数字)
Items.valueArray.valueObject.Tax.valueNumber number

格式为数字。 示例:12。

税收信心
Items.valueArray.valueObject.Tax.confidence float

模型在其预测中有多自信。

BusinessCardFields

2.1 的名片字段。

名称 路径 类型 说明
联系人姓名
ContactNames.valueArray array of object

联系人姓名数组

名字
ContactNames.valueArray.valueObject.FirstName.text string
名字的置信度
ContactNames.valueArray.valueObject.FirstName.confidence float

模型在其预测中有多自信。

姓氏
ContactNames.valueArray.valueObject.LastName.text string
姓氏的置信度
ContactNames.valueArray.valueObject.LastName.confidence float

模型在其预测中有多自信。

公司名称
CompanyNames.valueArray array of object

公司名称数组

公司名称
CompanyNames.valueArray.text string
公司名称的置信度
CompanyNames.valueArray.confidence float

模型在其预测中有多自信。

Departments
Departments.valueArray array of object

部门数组

Department
Departments.valueArray.text string
部门的信心
Departments.valueArray.confidence float

模型在其预测中有多自信。

职称
JobTitles.valueArray array of object

职务数组

职务
JobTitles.valueArray.text string
职务置信度
JobTitles.valueArray.confidence float

模型在其预测中有多自信。

电子邮件
Emails.valueArray array of object

电子邮件数组

Email
Emails.valueArray.text string
电子邮件置信度
Emails.valueArray.confidence float

模型在其预测中有多自信。

网站
Websites.valueArray array of object

网站数组

网站
Websites.valueArray.text string
网站置信度
Websites.valueArray.confidence float

模型在其预测中有多自信。

Addresses
Addresses.valueArray array of object

地址数组

地址
Addresses.valueArray.text string
地址置信度
Addresses.valueArray.confidence float

模型在其预测中有多自信。

手机
MobilePhones.valueArray array of object

移动电话数组

移动电话
MobilePhones.valueArray.text string
移动电话的置信度
MobilePhones.valueArray.confidence float

模型在其预测中有多自信。

传真
Faxes.valueArray array of object

传真数组

传真
Faxes.valueArray.text string
传真置信度
Faxes.valueArray.confidence float

模型在其预测中有多自信。

工作电话
WorkPhones.valueArray array of object

工作电话数组

工作电话
WorkPhones.valueArray.text string
工作电话的置信度
WorkPhones.valueArray.confidence float

模型在其预测中有多自信。

其他手机
OtherPhones.valueArray array of object

其他手机数组

其他手机
OtherPhones.valueArray.text string
其他手机的置信度
OtherPhones.valueArray.confidence float

模型在其预测中有多自信。

ReceiptFields

2.1 的 Receiptfields。

名称 路径 类型 说明
收据类型
ReceiptType.text string
收据类型的置信度
ReceiptType.confidence float

模型在其预测中有多自信。

商家名称
MerchantName.text string
商家名称的置信度
MerchantName.confidence float

模型在其预测中有多自信。

商家电话号码
MerchantPhoneNumber.text string
商家电话号码的信心
MerchantPhoneNumber.confidence float

模型在其预测中有多自信。

商家地址
MerchantAddress.text string
商家地址的信心
MerchantAddress.confidence float

模型在其预测中有多自信。

事务日期(文本)
TransactionDate.text string

返回发票上写成的交易日期。

事务日期(日期)
TransactionDate.valueDate date

格式为日期。 示例:2019-05-31。

交易日期的置信度
TransactionDate.confidence float

模型在其预测中有多自信。

事务时间(文本)
TransactionTime.text string

返回在发票上写入的事务时间。

事务时间(时间)
TransactionTime.valueDate time

格式为日期。 示例:2019-05-31。

事务时间的置信度
TransactionTime.confidence float

模型在其预测中有多自信。

总计(文本)
Total.text string

返回发票上写的总计。

总计(数字)
Total.valueNumber number

格式为数字。 示例:1234.98。

总置信度
Total.confidence float

模型在其预测中有多自信。

分类汇总(文本)
Subtotal.text string

返回发票上写的分类汇总。

小计 (数字)
Subtotal.valueNumber number

格式为数字。 示例:1234.98。

分类汇总的置信度
Subtotal.confidence float

模型在其预测中有多自信。

税(文本)
Tax.text string

返回发票上写的税款。

税(数字)
Tax.valueNumber number

格式为数字。 示例:1234.98。

税收信心
Tax.confidence float

模型在其预测中有多自信。

提示(文本)
Tip.text string

返回发票上写的提示。

提示 (数字)
Tip.valueNumber number

格式为数字。 示例:1234.98。

提示的置信度
Tip.confidence float

模型在其预测中有多自信。

物品
Items.valueArray array of object

行项数组

Name
Items.valueArray.valueObject.Name.text string
名称置信度
Items.valueArray.valueObject.Name.confidence float

模型在其预测中有多自信。

数量(文本)
Items.valueArray.valueObject.Quantity.text string

返回发票上写成的数量。

数量(数字)
Items.valueArray.valueObject.Quantity.valueNumber number

格式为数字。 示例:12。

数量置信度
Items.valueArray.valueObject.Quantity.confidence float

模型在其预测中有多自信。

价格(文本)
Items.valueArray.valueObject.Price.text string

返回发票上写成的价格。

价格(数字)
Items.valueArray.valueObject.Price.valueNumber number

格式为数字。 示例:12。

价格置信度
Items.valueArray.valueObject.Price.confidence float

模型在其预测中有多自信。

总价格(文本)
Items.valueArray.valueObject.TotalPrice.text string

返回发票上写的总计价格。

总价格(数字)
Items.valueArray.valueObject.TotalPrice.valueNumber number

格式为数字。 示例:12。

总价格的信心
Items.valueArray.valueObject.TotalPrice.confidence float

模型在其预测中有多自信。

IdFields

2.1 的 ID 文档字段。

名称 路径 类型 说明
国家/地区
CountryRegion.valueCountryRegion string
国家/地区的信心
CountryRegion.confidence float

模型在其预测中有多自信。

到期日期
DateOfExpiration.text string

返回发票上写的到期日期。

到期日期(日期)
DateOfExpiration.valueDate date

格式为日期。 示例:2019-05-31。

到期日期的置信度
DateOfExpiration.confidence float

模型在其预测中有多自信。

出生日期(文本)
DateOfBirth.text string

返回发票上写的出生日期。

出生日期(日期)
DateOfBirth.valueDate date

格式为日期。 示例:2019-05-31。

出生日期的置信度
DateOfBirth.confidence float

模型在其预测中有多自信。

单据编号
DocumentNumber.text string
文档编号的置信度
DocumentNumber.confidence float

模型在其预测中有多自信。

名字
FirstName.text string
名字的置信度
FirstName.confidence float

模型在其预测中有多自信。

姓氏
LastName.text string
姓氏的置信度
LastName.confidence float

模型在其预测中有多自信。

国家/地区
Nationality.valueCountryRegion string
国籍信心
Nationality.confidence float

模型在其预测中有多自信。

Sex
Sex.text string
性的信心
Sex.confidence float

模型在其预测中有多自信。

计算机可读区域
MachineReadableZone.text string
计算机可读区域的信心
MachineReadableZone.confidence float

模型在其预测中有多自信。

文档类型
DocumentType.text string
文档类型的置信度
DocumentType.confidence float

模型在其预测中有多自信。

地址
Address.text string
地址置信度
Address.confidence float

模型在其预测中有多自信。

区域
Region.text string
区域置信度
Region.confidence float

模型在其预测中有多自信。

FieldValue

预测字段值对象。

名称 路径 类型 说明
类型
type FieldValueType

字段值的语义数据类型。

valueString
valueString string

字符串值。

valueDate
valueDate date-time

日期值。

valueTime
valueTime date-time

时间值。

valuePhoneNumber
valuePhoneNumber string

电话号码值。

valueNumber
valueNumber number

浮点值。

valueInteger
valueInteger integer

整数值。

文本消息
text string
boundingBox
boundingBox BoundingBox

四边形边界框,指定相对于原始图像左上角的坐标。 八个数字表示四点,从左上角相对于文本方向顺时针。 对于图像,以像素为单位测量 (x, y) 坐标。 对于 PDF,以英寸为单位测量 (x, y) 坐标。

可信度
confidence Confidence

置信度值。

元素
elements array of ElementReference

如果 includeTextDetails 设置为 true,则构成此字段的文本元素的引用列表。

页面
page integer

输入文档中基于 1 的页码。

FieldValueType

字段值的语义数据类型。

字段值的语义数据类型。

置信度

置信度值。

置信度值。

ApiVersion_V30

API 版本。

API 版本。

AnalyzeResultOperation_V30

分析作的状态和结果。

名称 路径 类型 说明
状态
status string

作状态。

createdDateTime
createdDateTime date-time

提交分析作的日期和时间(UTC)。

lastUpdatedDateTime
lastUpdatedDateTime date-time

上次更新状态的日期和时间(UTC)。

错误
error Error_V30

错误信息。

analyzeResult
analyzeResult AnalyzeResult_V30

文档分析结果。

AnalyzeResult_V30

文档分析结果。

名称 路径 类型 说明
apiVersion
apiVersion ApiVersion_V30

API 版本。

modelId
modelId ModelId_V30

唯一的模型名称。

stringIndexType
stringIndexType StringIndexType_V30

用于计算字符串偏移量和长度的方法。

内容
content string

按阅读顺序连接所有文本元素和视觉元素的字符串表示形式。

contentFormat
contentFormat ContentFormat_V40

分析结果中内容的格式。

页面
pages array of DocumentPage_V30

已分析的页面。

段落
paragraphs array of DocumentParagraph_V30

提取的段落。

tables
tables array of DocumentTable_V30

提取的表。

数字
figures array of DocumentFigure_V40

提取的数字。

部分
sections array of DocumentSection_V40

提取的分区。

keyValuePairs
keyValuePairs array of DocumentKeyValuePair_V30

提取的键值对。

entities
entities array of DocumentEntity_V30

提取的实体。

风格
styles array of DocumentStyle_V30

提取的字体样式。

语言
languages array of DocumentLanguage_V30

检测到的语言。

文件
documents array of Document_V30

提取的文档。

警告
warnings array of Warning_V40

遇到的警告列表。

DocumentPage_V30

从输入页中提取的内容和布局元素。

名称 路径 类型 说明
kind
kind string

文档页的类型。

pageNumber
pageNumber integer

输入文档中基于 1 的页码。

角度
angle number

内容以顺时针方向的一般方向,以度为单位(-180,180)。

width
width number

图像/PDF 的宽度(以像素/英寸为单位)。

身高
height number

图像/PDF 的高度(以像素/英寸为单位)。

单位
unit string

宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

spans
spans array of DocumentSpan_V30

页面在阅读顺序中连接内容的位置。

words
words array of DocumentWord_V30

从页面中提取的字词。

selectionMarks
selectionMarks array of DocumentSelectionMark_V30

从页面中提取的选择标记。

图像
images array of DocumentImage_V30

从页面中提取的图像。

线
lines array of DocumentLine_V30

从页面中提取的行,可能同时包含文本元素和视觉元素。

条形码
barcodes array of DocumentBarcode_V31

从页面中提取的条形码。

formulas
formulas array of DocumentFormula_V31

从页面中提取的公式。

DocumentWord_V30

由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。

名称 路径 类型 说明
内容
content string

单词的文本内容。

多边形
polygon BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span
span DocumentSpan_V30

串联内容属性的连续区域,指定为偏移量和长度。

可信度
confidence Confidence_V30

预测置信度。

DocumentSelectionMark_V30

表示复选框、单选按钮和其他指示所选内容的元素的选择标记对象。

名称 路径 类型 说明
状态
state DocumentSelectionMarkState_V30

选择标记的状态。

多边形
polygon BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span
span DocumentSpan_V30

串联内容属性的连续区域,指定为偏移量和长度。

可信度
confidence Confidence_V30

预测置信度。

DocumentImage_V30

在页面中检测到的图像对象。

名称 路径 类型 说明
多边形
polygon BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span
span DocumentSpan_V30

串联内容属性的连续区域,指定为偏移量和长度。

pageRef
pageRef integer

包含图像内容的全局页面数组的从 0 开始的索引。

可信度
confidence Confidence_V30

预测置信度。

DocumentSelectionMarkState_V30

选择标记的状态。

选择标记的状态。

DocumentStyle_V30

表示观察到的文本样式的对象。

名称 路径 类型 说明
backgroundColor
backgroundColor string

#rrggbb 十六进制格式的背景色。

color
color string

#rrggbb 十六进制格式的前景色。

fontStyle
fontStyle string

字形。

fontWeight
fontWeight string

字体粗细。

isHandwritten
isHandwritten boolean

内容手写。

similarFontFamily
similarFontFamily string

从受支持的字体系列中直观上最相似的字体,回退字体遵循 CSS 约定(例如“Arial, sans-serif”)。

spans
spans array of DocumentSpan_V30

样式应用于的串联内容中文本元素的位置。

可信度
confidence Confidence_V30

预测置信度。

DocumentLanguage_V30

一个对象,表示给定文本范围的检测到的语言。

名称 路径 类型 说明
区域设置
locale string

检测到的语言。 值可以是 ISO 639-1 语言代码(例如“en”、“fr”)或 BCP 47 语言标记(例如“zh-Hans”)。

spans
spans array of DocumentSpan_V30

语言所应用于的串联内容中文本元素的位置。

可信度
confidence Confidence_V30

预测置信度。

DocumentLine_V30

内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。

名称 路径 类型 说明
内容
content string

按阅读顺序连接包含元素的内容。

多边形
polygon BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

spans
spans array of DocumentSpan_V30

阅读顺序中行的位置连接内容。

DocumentParagraph_V30

包含连续线条的段落对象通常具有常见的对齐和间距。

名称 路径 类型 说明
角色
role string

段落的语义角色。

内容
content string

按阅读顺序连接段落的内容。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖段落的边界区域。

spans
spans array of DocumentSpan_V30

阅读顺序中段落的位置连接内容。

DocumentTable_V30

一个表格对象,该对象由排列在矩形布局中的表格单元格组成。

名称 路径 类型 说明
rowCount
rowCount integer

表中的行数。

columnCount
columnCount integer

表中的列数。

细胞
cells array of DocumentTableCell_V30

表格中包含的单元格。

字幕
caption DocumentCaption_V30

一个对象,表示表格标题的位置和内容。

脚注
footnotes array of DocumentFootnote_V30

与表格关联的脚注。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖表的边界区域。

spans
spans array of DocumentSpan_V30

读取顺序中表的位置连接内容。

DocumentTableCell_V30

一个对象,表示表单元格的位置和内容。

名称 路径 类型 说明
kind
kind string

表单元格类型。

rowIndex
rowIndex integer

单元格的行索引。

columnIndex
columnIndex integer

单元格的列索引。

rowSpan (行跨度)
rowSpan integer

此单元格跨越的行数。

columnSpan
columnSpan integer

此单元格跨越的列数。

内容
content string

按阅读顺序连接表单元格的内容。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖表单元格的边界区域。

spans
spans array of DocumentSpan_V30

按阅读顺序串联内容的表单元格的位置。

DocumentCaption_V30

一个对象,表示表格标题的位置和内容。

名称 路径 类型 说明
内容
content string

表格标题内容。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖表格标题的边界区域。

spans
spans array of DocumentSpan_V30

阅读顺序中表格标题的位置连接内容。

DocumentFootnote_V30

一个对象,表示表脚注的位置和内容。

名称 路径 类型 说明
内容
content string

表格脚注内容。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖表脚注的边界区域。

spans
spans array of DocumentSpan_V30

阅读顺序中表脚注的位置连接内容。

DocumentKeyValuePair_V30

一个对象,表示具有不同字段标签(键)和字段值(可能为空)的窗体字段。

名称 路径 类型 说明
关键值
key DocumentKeyValueElement_V30

一个对象,表示键值对中的字段键或值。

value
value DocumentKeyValueElement_V30

一个对象,表示键值对中的字段键或值。

可信度
confidence Confidence_V30

预测置信度。

DocumentKeyValueElement_V30

一个对象,表示键值对中的字段键或值。

名称 路径 类型 说明
内容
content string

键值元素的串联内容(按读取顺序)。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖键值元素的边界区域。

spans
spans array of DocumentSpan_V30

键值元素在读取顺序串联内容中的位置。

DocumentEntity_V30

一个对象,表示各种类别的实体。

名称 路径 类型 说明
分类
category string

实体类型。

subCategory
subCategory string

实体子类型。

内容
content string

实体内容。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖实体的边界区域。

spans
spans array of DocumentSpan_V30

实体在读取顺序中连接内容的位置。

可信度
confidence Confidence_V30

预测置信度。

DocumentBarcode_V31

条形码对象。

名称 路径 类型 说明
可信度
confidence Confidence_V30

预测置信度。

kind
kind string

条形码类型。

多边形
polygon BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span
span DocumentSpan_V30

串联内容属性的连续区域,指定为偏移量和长度。

value
value string

条形码值

DocumentFormula_V31

公式对象。

名称 路径 类型 说明
可信度
confidence Confidence_V30

预测置信度。

kind
kind string

公式类型。

多边形
polygon BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

span
span DocumentSpan_V30

串联内容属性的连续区域,指定为偏移量和长度。

value
value string

描述公式的 LaTex 表达式。

DocumentFigure_V40

一个对象,表示文档中的图。

名称 路径 类型 说明
boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖该图的边界区域。

spans
spans array of DocumentSpan_V30

读取顺序中图的位置连接内容。

元素
elements array of DocumentElement_V40

图的子元素,不包括任何标题或脚注。

字幕
caption DocumentCaption_V30

一个对象,表示表格标题的位置和内容。

脚注
footnotes array of DocumentFootnote_V30

与该图关联的脚注列表。

id
id string

图 ID。

DocumentSection_V40

一个对象,表示文档中的节。

名称 路径 类型 说明
spans
spans array of DocumentSpan_V30

阅读顺序中分区的位置连接内容。

元素
elements array of DocumentElement_V40

节的子元素。

DocumentElement_V40

引用文档元素的 JSON 指针,例如段落、表、节等。

引用文档元素的 JSON 指针,例如段落、表、节等。

Warning_V40

错误对象。

名称 路径 类型 说明
代码
code string

服务器定义的警告代码集之一。

消息
message string

警告的可读表示形式。

目标
target string

错误的目标。

ContentFormat_V40

分析结果中内容的格式。

分析结果中内容的格式。

Document_V30

描述文档的位置和语义内容的对象。

名称 路径 类型 说明
docType
docType DocType_V30

文档类型名称。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖文档的边界区域。

spans
spans array of DocumentSpan_V30

以阅读顺序连接内容的文档的位置。

fields
fields object

命名字段值的字典。

Fields
_fields array of DocumentFieldNameValue_V30

具有 fieldName 和 fieldValue 属性的字段数组。

可信度
confidence Confidence_V30

预测置信度。

BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

名称 路径 类型 说明
物品
number

BoundingRegion_V30

输入的特定页上的边界多边形。

名称 路径 类型 说明
pageNumber
pageNumber integer

包含边界区域的基于 1 的页码。

多边形
polygon BoundingPolygon_V30

边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,相对于元素方向从左侧顺时针(-180 度(含度)。

DocumentFieldType_V30

字段值的语义数据类型。

字段值的语义数据类型。

DocumentFieldNameValue_V30

具有字段名称及其值的文档字段对象。

名称 路径 类型 说明
字段名称
fieldName string
fieldValue
fieldValue DocumentField_V30

一个对象,表示字段值的内容和位置。

DocumentField_V30

一个对象,表示字段值的内容和位置。

名称 路径 类型 说明
类型
type DocumentFieldType_V30

字段值的语义数据类型。

valueString
valueString string

字符串值。

valueDate
valueDate date

YYYYMM-DD 格式(ISO 8601)格式的日期值。

valueTime
valueTime time

hh:mm:ss 格式的时间值(ISO 8601)。

valuePhoneNumber
valuePhoneNumber string

E.164 格式的电话号码值(例如 +19876543210)。

valueNumber
valueNumber number

浮点值。

valueInteger
valueInteger integer

整数值。

valueSelectionMark
valueSelectionMark DocumentSelectionMarkState_V30

选择标记的状态。

valueSignature
valueSignature string

存在签名。

valueCountryRegion
valueCountryRegion string

3 字母国家/地区代码值 (ISO 3166-1 alpha-3)。

valueCurrency
valueCurrency CurrencyValue_V30

货币字段值。

valueAddress
valueAddress AddressValue_V30

地址字段值。

valueBoolean
valueBoolean boolean

布尔值。

内容
content string

字段内容。

boundingRegions
boundingRegions array of BoundingRegion_V30

覆盖字段的边界区域。

spans
spans array of DocumentSpan_V30

读取顺序中字段的位置连接内容。

可信度
confidence Confidence_V30

预测置信度。

Confidence_V30

预测置信度。

预测置信度。

DocType_V30

文档类型名称。

文档类型名称。

DocumentSpan_V30

串联内容属性的连续区域,指定为偏移量和长度。

名称 路径 类型 说明
偏移
offset integer

范围所表示的内容的从零开始的索引。

length
length integer

范围所表示的内容中的字符数。

StringIndexType_V30

用于计算字符串偏移量和长度的方法。

用于计算字符串偏移量和长度的方法。

ModelId_V30

唯一的模型名称。

唯一的模型名称。

Error_V30

错误信息。

名称 路径 类型 说明
代码
code string

错误代码。

消息
message string

错误消息。

目标
target string

错误的目标。

详情
details array of InnerError_V30

详细错误列表。

innererror
innererror InnerError_V30

详细错误。

InnerError_V30

详细错误。

名称 路径 类型 说明
代码
code string

错误代码。

消息
message string

错误消息。

CurrencyValue_V30

货币字段值。

名称 路径 类型 说明
amount double

货币金额。

货币代码
currencyCode string

已解析的货币代码(ISO 4217),如果有。

currencySymbol
currencySymbol string

货币符号标签(如果有)。

AddressValue_V30

地址字段值。

名称 路径 类型 说明
houseNumber
houseNumber string

房屋或建筑号。

poBox
poBox string

邮局票房号码。

道路
road string

街道名称。

城市
city string

市、镇、村等的名称。

状态
state string

一级行政分区。

postalCode
postalCode string

用于邮件排序的邮政编码。

countryRegion
countryRegion string

国家或地区。

streetAddress
streetAddress string

街道级别地址,不包括城市、州、国家/地区和邮政编码。

cityDistrict
cityDistrict string

纽约市的布鲁克林或伦敦威斯敏斯特市等城市内的地区或区。

房子
house string

生成名称,如世贸中心。

水平仪
level string

楼层号,如 3F。

stateDistrict
stateDistrict string

某些区域设置中使用的二级行政分区。

郊区
suburb string

非官方邻里名称,如唐人街。

单位
unit string

公寓或办公室号码。