Zuva DocAI
使用 Zuva DocAI 将 Contracts AI 嵌入到产品工作流中。 无需从头开始进行 AI 开发,利用 DocAI API 从合同中提取信息。
此连接器在以下产品和区域中可用:
| 服务 | Class | 区域 |
|---|---|---|
| Copilot Studio | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 逻辑应用程序 | 标准 | 除以下各项外的所有 逻辑应用区域 : - Azure 政府区域 - Azure 中国区域 - 美国国防部(DoD) |
| Power Apps | 高级 | 除以下各项外的所有 Power Apps 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| Power Automate | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 联系人 | |
|---|---|
| Name | Zuva 支持 |
| URL | https://zuva.ai/support/ |
| support@zuva.ai |
| 连接器元数据 | |
|---|---|
| 发布者 | Zuva Inc. |
| 网站 | https://zuva.ai/ |
| 隐私策略 | https://zuva.ai/privacy/ |
| 类别 | AI |
此连接器使用户能够利用 Zuva 的顶级 Contracts AI 从合同(和相关文档)中查找和提取实体、句子和段落。 此连接器设计并经过训练,可跨多个行业和用例确定法律条款,提供一套即插即用的模块套件,用于在工作流中嵌入 Contracts AI。 此连接器附带 OCR 来读取文档,以及文档分类和规范化功能。
先决条件
需要 Zuva 帐户和 DocAI 令牌。 注册 免费帐户入门。
如何获取凭据
Zuva DocAI 具有多个区域服务器。 需要为要使用的特定区域创建 API 令牌。
有关 Zuva 帐户和令牌的详细信息,请参阅 DocAI 快速入门指南 。
连接器入门
若要使用 Zuva DocAI 连接器,需要设置类似于以下内容的流:
步骤 1:获取文件
出于测试目的,可以在 Power Automate 中创建“即时云流”。 选择“手动触发流”并创建流。 添加输入,然后选择“文件”类型。
步骤 2:提交文件
添加作 Submit a file ,并选择上一步中的“文件内容”作为输入。
注意:不应以任何方式转换文件(即没有 base64 编码)。 DocAI 仅接受原始二进制数据。
步骤 3:开始处理文件
通过添加以下作之一,选择要使用的服务:
Create Language Classification RequestCreate Document Classification RequestCreate Multi-Level Classification RequestCreate Field Extraction RequestCreate OCR Request
其中每个都接受文件 ID(从 Submit a file 作返回)作为输入。
字段提取还需要字段 ID 作为输入。 字段 ID 可以在 字段库 (需要登录)、 AI 培训师 (如果已训练自定义字段)或以编程方式使用该 Get Field List 作找到。
步骤 4:轮询请求完成情况
Do Until使用块(在“控制”部分中找到),并将正确的状态检查作添加到块内部:
Get Field Extraction Request StatusGet Language Classification Request StatusGet Document Classification Request StatusGet MLC request StatusGet OCR Request Status
该 Get ____ status 作从其相应的 Create ____ Request 作中输入请求 ID。
还应在Delay块内添加 10 秒Do until的块,以确保文件有足够的时间进行处理。
将块Do Until的条件Is Finished?设置为等于 true。
步骤 4:获取结果
最后,使用原始“创建”作中的“请求 ID”作为输入,使用与请求对应的“获取结果作”之一:
Get Field Extraction Request Text ResultsGet Language Classification Request StatusGet Document Classification Request StatusGet MLC request StatusGet OCR Results TextGet OCR Results Images
请注意,对于语言、文档分类和 MLC,结果将包含在状态响应中。
可能需要查看 DocAI 文档 ,了解有关字段提取结果结构的详细信息。
已知问题和限制
每个请求的字段数
单个作中最多可以包含 100 个 Create Field Extraction Request 字段。
自定义字段
连接器不支持任何与训练自定义字段或获取单个字段元数据相关的 DocAI 终结点。
与基础 API 的差异
此外,请注意,连接器功能与基础 API 的文档不对应一对一。 特别是连接器:
- 公开一个额外的
is_finished布尔值,该布尔值可用于判断请求是已完成还是失败 - 所有请求都对单个文件运行,而不是对多个文件进行批处理。
常见错误和补救措施
请务必上传原始二进制文件,而不是 base64 编码的字符串。 可以使用 OCR 服务并检查它是否返回预期文本。
FAQ
在哪里可以找到有关 Zuva DocAI 的其他信息?
在哪里可以找到有关 Zuva DocAI 的其他文档?
https://zuva.ai/documentation/
创建连接
连接器支持以下身份验证类型:
| 默认 | 用于创建连接的参数。 | 所有区域 | 不可共享 |
违约
适用:所有区域
用于创建连接的参数。
这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。
| Name | 类型 | Description | 必选 |
|---|---|---|---|
| 标记 | securestring | DocAI 令牌 | True |
| 基本网址 | 字符串 | 例如 https://us.app.zuva.ai/api/v2 | True |
限制
| 名称 | 调用 | 续订期 |
|---|---|---|
| 每个连接的 API 调用数 | 100 | 60 秒 |
操作
| 创建 OCR 请求 |
创建一个新请求,以便将 OCR 应用于指定文件。 |
| 创建多级分类请求 |
为指定文件的多级分类创建请求。 |
| 创建字段提取请求 |
创建从指定文件提取的新请求。 |
| 创建文档分类请求 |
创建对指定文档进行分类的请求。 |
| 创建语言分类请求 |
为指定文件的语言创建请求。 |
| 删除文件 |
从 Zuva 中删除现有文件。 |
| 提交文件 |
将文件提交到 Zuva DocAI。 |
| 获取 MLC 请求状态 |
获取现有 MLC 请求的状态和可用结果。 |
| 获取 OCR 请求图像 |
从已完成的 OCR 请求获取图像。 |
| 获取 OCR 请求文本 |
从已完成的 OCR 请求获取文本。 |
| 获取 OCR 请求状态 |
检查现有 OCR 请求的状态。 |
| 获取字段列表 |
获取可供使用的所有字段的列表。 |
| 获取字段提取请求状态 |
检查现有字段提取请求的状态。 |
| 获取字段提取请求结果 |
从已完成的字段提取请求获取文本结果。 |
| 获取文档分类请求状态 |
获取现有文档分类请求的状态和可用结果。 |
| 获取语言分类请求状态 |
获取现有文档分类请求的状态和可用结果。 |
| 规范化日期 |
规范化包含一个或多个日期的字符串。 对于找到的每个日期,终结点返回一组整数,表示年份、月和日。 |
创建 OCR 请求
创建一个新请求,以便将 OCR 应用于指定文件。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
文件 ID
|
file_id | string |
由 SubmitFile作返回的文件的唯一标识符。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
OCR 请求 ID
|
request_id | string |
用于获取 OCR 请求的状态和结果的 ID。 |
创建多级分类请求
为指定文件的多级分类创建请求。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
文件 ID
|
file_id | string |
由 SubmitFile作返回的文件的唯一标识符。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
MLC 请求 ID
|
request_id | string |
用于获取此请求的状态和结果的 ID。 |
创建字段提取请求
创建从指定文件提取的新请求。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
文件 ID
|
file_id | string |
要从中提取文本的文件。 |
|
|
字段 ID
|
field_ids | array of string |
要提取的字段的 ID。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
提取请求 ID
|
request_id | string |
用于获取此请求的状态和结果的 ID。 |
创建文档分类请求
创建对指定文档进行分类的请求。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
文件 ID
|
file_id | string |
由 SubmitFile作返回的文件的唯一标识符。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
分类请求 ID
|
request_id | string |
用于获取此请求的状态和结果的 ID。 |
创建语言分类请求
为指定文件的语言创建请求。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
文件 ID
|
file_id | string |
由 SubmitFile作返回的文件的唯一标识符。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
语言请求 ID
|
request_id | string |
用于获取此请求的状态和结果的 ID。 |
删除文件
提交文件
将文件提交到 Zuva DocAI。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
文件
|
File | binary |
要上传的二进制文件内容或纯文本字符串。 二进制内容不应进行 Base64 编码。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
文件 ID
|
file_id | string |
文件的 Zuva 分配的唯一标识符。 |
|
内容类型
|
attributes.content-type | string |
检测到文件的 MIME 内容类型 |
|
过期日期
|
expiration | string |
计划从 DocAI 中删除文件的时间。 |
获取 MLC 请求状态
获取现有 MLC 请求的状态和可用结果。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
请求编号
|
request_id | True | string |
由 CreateMlcRequest 返回的 MLC 请求的请求 ID。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
MLC 请求状态
|
status | string |
请求的状态(“queued”、“processing”、“complete”或“failed”之一)。 |
|
是否已完成?
|
is_finished | boolean |
指示请求是否已达到终端状态(完成还是失败)的布尔值。 |
|
Classifications
|
classifications | array of string |
文档的分层分类。 |
获取 OCR 请求图像
从已完成的 OCR 请求获取图像。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
OCR 请求 ID
|
request_id | True | string |
CreateOcrRequest 返回的现有 OCR 请求的唯一标识器。 |
返回
包含文档的每页作为图像的 zip 文件。
- 映像
- binary
获取 OCR 请求文本
从已完成的 OCR 请求获取文本。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
OCR 请求 ID
|
request_id | True | string |
CreateOcrRequest 返回的现有 OCR 请求的唯一标识器。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
文本
|
text | string |
文档的 OCR 文本。 |
获取 OCR 请求状态
检查现有 OCR 请求的状态。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
OCR 请求 ID
|
request_id | True | string |
CreateOcrRequest 返回的现有 OCR 请求的唯一标识器。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
OCR 请求状态
|
status | string |
请求的状态(“queued”、“processing”、“complete”或“failed”之一)。 |
|
是否已完成?
|
is_finished | boolean |
指示请求是否已达到终端状态(完成还是失败)的布尔值。 |
获取字段列表
获取可供使用的所有字段的列表。
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
|
array of object | ||
|
字段 ID
|
field_id | string |
字段的唯一标识符。 |
|
Name
|
name | string |
字段的名称 |
|
Description
|
description | string |
字段的说明。 |
|
偏见
|
bias | double |
基础 ML 模型使用的偏差。 |
|
F 分数
|
f_score | double |
字段的 F 分数,这是其准确性的统计度量值。 |
|
精准率
|
precision | double |
字段的精度。 |
|
召回率
|
recall | double |
字段的召回率。 |
|
文档计数
|
document_count | integer |
已训练字段的文档数。 |
|
自定义吗?
|
is_custom | boolean |
指示字段是否为自定义的布尔值。 |
|
是否已训练?
|
is_trained | boolean |
指示是否已训练自定义字段的布尔值。 |
获取字段提取请求状态
检查现有字段提取请求的状态。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
提取请求 ID
|
request_id | True | string |
由 CreateExtractionRequest 返回的现有提取请求的唯一标识器。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
字段提取请求状态
|
status | string |
请求的状态(“queued”、“processing”、“complete”或“failed”之一)。 |
|
是否已完成?
|
is_finished | boolean |
指示请求是否已达到终端状态(完成还是失败)的布尔值。 |
获取字段提取请求结果
从已完成的字段提取请求获取文本结果。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
提取请求 ID
|
request_id | True | string |
由 CreateExtractionRequest 返回的现有提取请求的唯一标识器。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
Results
|
results | array of object |
字段提取结果的数组。 |
|
字段 ID
|
results.field_id | string |
提取字段的唯一标识符。 |
|
提取
|
results.extractions | array of object |
为此特定字段提取的结果数组。 |
|
文本
|
results.extractions.text | string |
为字段提取的文本。 |
|
跨度
|
results.extractions.spans | array of object |
有关文档内文本位置的信息。 |
|
Start
|
results.extractions.spans.start | integer |
文档文本中提取的第一个字符的索引。 |
|
结束
|
results.extractions.spans.end | integer |
文档文本中提取的最后一个字符的索引。 |
|
Start
|
results.extractions.spans.pages.start | integer |
提取开始的页码。 |
|
结束
|
results.extractions.spans.pages.end | integer |
提取结束的页码。 |
获取文档分类请求状态
获取现有文档分类请求的状态和可用结果。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
请求编号
|
request_id | True | string |
由 CreateDocumentClasssificationRequest 返回的文档分类请求的请求 ID。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
分类请求状态
|
status | string |
请求的状态(“queued”、“processing”、“complete”或“failed”之一)。 |
|
是否已完成?
|
is_finished | boolean |
指示请求是否已达到终端状态(完成还是失败)的布尔值。 |
|
Classification
|
classification | string |
检测到的文档的类型。 |
|
合同是吗?
|
is_contract | boolean |
文档是否被识别为合同。 |
获取语言分类请求状态
获取现有文档分类请求的状态和可用结果。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
请求编号
|
request_id | True | string |
CreateLanguageRequest 返回的语言分类请求的请求 ID。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
语言请求状态
|
status | string |
请求的状态(“queued”、“processing”、“complete”或“failed”之一)。 |
|
是否已完成?
|
is_finished | boolean |
指示请求是否已达到终端状态(完成还是失败)的布尔值。 |
|
语言
|
language | string |
文档的主要检测到的语言。 |
规范化日期
规范化包含一个或多个日期的字符串。 对于找到的每个日期,终结点返回一组整数,表示年份、月和日。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
文本
|
text | string |
要规范化的文本字符串。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
请求编号
|
request_id | string |
请求的 ID |
|
文本消息
|
text | string |
提供的原始文本。 |
|
sha-256
|
sha-256 | string |
原始文本的 SHA-256 哈希。 |
|
date
|
date | array of object |
date |
|
星期
|
date.day | integer |
月份中的某一天为整数。 |
|
月份
|
date.month | integer |
表示为介于 1 和 12 之间的整数的月份。 |
|
年份
|
date.year | integer |
表示为整数的年份。 |
定义
字符串
这是基本数据类型“string”。
二进制
这是基本数据类型“binary”。