营养物质 - 从 PDF 中提取 (预览版)

使用营养文档转换器提取作解锁功能强大的 PDF 文本和数据提取。 无缝检索文本、数据、提取键值对,并利用 OCR 技术处理扫描的文档。 非常适合用于索引、搜索、内容分析和结构化数据工作流。

此连接器在以下产品和区域中可用:

服务 Class 区域
Copilot Studio 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
逻辑应用程序 标准 除以下各项外的所有 逻辑应用区域
     - Azure 政府区域
     - Azure 中国区域
     - 美国国防部(DoD)
Power Apps 高级 除以下各项外的所有 Power Apps 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
Power Automate 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
联系人​​
Name 营养(前穆希姆比)支持
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
连接器元数据
发布者 穆希姆比交易作为营养物质
网站 https://www.nutrient.io/low-code/
隐私策略 https://www.nutrient.io/legal/privacy/
类别 协作;内容和文件

从 PDF 中提取文本和数据

营养文档转换器使你可以从 PDF 文件中提取文本、数据或特定页面,作为 Power Automate 中自动化工作流的一部分。 还可以使用 OCR 从图像中提取文本。

可用操作

有关在工作流中实现这些作的分步说明,请参阅链接指南。

先决条件

若要使用营养文档转换器,需要一个 免费试用 帐户。 请参阅 比较指南 ,了解这些帐户类型之间的差异。

入门指南

按照以下步骤开始使用营养文档转换器连接器:

已知问题和限制

由于安全限制,无法处理受 IRM、DRM、RMS 或 AIP 解决方案 保护的文档。

有关问题或帮助,请联系 我们的支持团队

限制

名称 调用 续订期
每个连接的 API 调用数 100 60 秒

操作

从 PDF 文档中提取文本

从 PDF 文档中检索文本内容,以便轻松编制索引、搜索或内容分析。

从 PDF 文档中提取键值对

识别和提取文档中用于处理表单或结构化数据工作流的键值对。

使用 OCR 从 PDF 文件中提取文本

使用 OCR 技术从扫描的文档或图像中提取文本,使其可搜索和编辑。

从 PDF 文档中提取文本

从 PDF 文档中检索文本内容,以便轻松编制索引、搜索或内容分析。

参数

名称 密钥 必需 类型 说明
源文件名称
source_file_name True string

源文件的名称,包括扩展名

源文件内容
source_file_content True byte

要转换的文件的内容

页面范围
page_range string

要从其中提取文本的页面范围,例如 1,5,8-12

出错时失败
fail_on_error boolean

出错时失败

返回

所有作的响应数据

从 PDF 文档中提取键值对

识别和提取文档中用于处理表单或结构化数据工作流的键值对。

参数

名称 密钥 必需 类型 说明
源文件名称
source_file_name True string

源文件的名称,包括扩展名

源文件内容
source_file_content True byte

要转换的文件的内容

OCR 语言
ocr_language string

OCR 和 KVP 提取的语言代码,用“+”分隔。 例如,“eng+deu+fra”将添加英语、德语和法语。

DPI
dpi enum

删除 PDF 中的空白页

KVP 输出格式
kvp_format enum

用逗号分隔的输出格式。 KVP 数据可以在 JSON、CSV 和 XML 中输出。 e.g. json,csv,xml

页面范围
page_range string

KVP 要处理的页面。 对第 1 到 5 页使用“1 - 5”的字符串,或使用“1、5、6”字符串来指定页面 1 和 5 和 6。

Autorotate
autorotate enum

如果文本没有正确的方向,则将其设置为“是”将自动旋转页面。

剪裁符号
trim_symbols enum

如果将其设置为“是”,则会从值的开头/结尾删除任何符号,但哈希“#”或句点“.”符号除外。

包括键边界框
include_key_bounding_box enum

在输出中包含键的边界框值

包括值边界框
include_value_bounding_box enum

在输出中包含值的边界框值

包括页码
include_page_number enum

在输出中包含键值对的页码

包括置信度
include_confidence enum

在输出中包含键值对的置信度分数。 置信度在 0(无置信度)和 100(完全置信度)之间测量。

置信度阈值
confidence_threshold integer

键值对必须达到的置信度阈值才能包含在输出中。 将丢弃阈值下的结果。

包含类型
include_type enum

在输出中包含键值对的数据类型

预期密钥
expected_keys string

包含预期键和同义词的 JSON 字符串

出错时失败
fail_on_error boolean

出错时失败

返回

所有作的响应数据

使用 OCR 从 PDF 文件中提取文本

使用 OCR 技术从扫描的文档或图像中提取文本,使其可搜索和编辑。

参数

名称 密钥 必需 类型 说明
源文件名称
source_file_name True string

源文件的名称,包括扩展名

源文件内容
source_file_content True byte

文件内容到 OCR

语言
language enum

语言

X 坐标
x string

X 坐标(以 Pts 为单位,1/72 英寸)

Y 坐标
y string

Y 坐标(以磅为单位,1/72 英寸)

宽度
width string

OCR 区域的宽度(以 Pts 为单位,1/72 英寸)

高度
height string

OCR 区域的高度(在 Pts 中,1/72 英寸)

页码
page_number string

页码(将空白保留至 OCR 所有页面)

Performance
performance enum

性能()

黑名单/允许列表
characters_option enum

“字符”选项

字符数
characters string

将字符加入黑名单或允许列表

使用分页
paginate boolean

标页数

出错时失败
fail_on_error boolean

出错时失败

返回

OCRText作的响应数据

定义

ocr_operation_response

OCRText作的响应数据

名称 路径 类型 说明
Out text
out_text string

以纯文本提取的 OCRed 文本。

基文件名
base_file_name string

没有扩展名的输入文件的名称。

结果代码
result_code enum

作结果代码。

结果详细信息
result_details string

作结果详细信息。

operation_response

所有作的响应数据

名称 路径 类型 说明
处理的文件内容
processed_file_content byte

Muhimbi 转换器生成的文件。

基文件名
base_file_name string

没有扩展名的输入文件的名称。

结果代码
result_code enum

作结果代码。

结果详细信息
result_details string

作结果详细信息。