营养物质 - 从 PDF 中提取 (预览版)
使用营养文档转换器提取作解锁功能强大的 PDF 文本和数据提取。 无缝检索文本、数据、提取键值对,并利用 OCR 技术处理扫描的文档。 非常适合用于索引、搜索、内容分析和结构化数据工作流。
此连接器在以下产品和区域中可用:
| 服务 | Class | 区域 |
|---|---|---|
| Copilot Studio | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 逻辑应用程序 | 标准 | 除以下各项外的所有 逻辑应用区域 : - Azure 政府区域 - Azure 中国区域 - 美国国防部(DoD) |
| Power Apps | 高级 | 除以下各项外的所有 Power Apps 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| Power Automate | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 联系人 | |
|---|---|
| Name | 营养(前穆希姆比)支持 |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| support+low-code@nutrient.io |
| 连接器元数据 | |
|---|---|
| 发布者 | 穆希姆比交易作为营养物质 |
| 网站 | https://www.nutrient.io/low-code/ |
| 隐私策略 | https://www.nutrient.io/legal/privacy/ |
| 类别 | 协作;内容和文件 |
从 PDF 中提取文本和数据
营养文档转换器使你可以从 PDF 文件中提取文本、数据或特定页面,作为 Power Automate 中自动化工作流的一部分。 还可以使用 OCR 从图像中提取文本。
可用操作
有关在工作流中实现这些作的分步说明,请参阅链接指南。
先决条件
若要使用营养文档转换器,需要一个 免费 或 试用 帐户。 请参阅 比较指南 ,了解这些帐户类型之间的差异。
入门指南
按照以下步骤开始使用营养文档转换器连接器:
- 通过填写 此表单注册 30 天试用版。
- 提交表单后,将收到一封电子邮件,其中包含试用激活详细信息。
- 有关过程的演练,请参阅 入门视频 。
- 有关详细说明,请阅读 适用于 Power Automate 的文档转换器指南 。
- 了解 Power Automate 和逻辑应用教程 ,了解实际示例。
已知问题和限制
由于安全限制,无法处理受 IRM、DRM、RMS 或 AIP 解决方案 保护的文档。
有关问题或帮助,请联系 我们的支持团队。
限制
| 名称 | 调用 | 续订期 |
|---|---|---|
| 每个连接的 API 调用数 | 100 | 60 秒 |
操作
| 从 PDF 文档中提取文本 |
从 PDF 文档中检索文本内容,以便轻松编制索引、搜索或内容分析。 |
| 从 PDF 文档中提取键值对 |
识别和提取文档中用于处理表单或结构化数据工作流的键值对。 |
| 使用 OCR 从 PDF 文件中提取文本 |
使用 OCR 技术从扫描的文档或图像中提取文本,使其可搜索和编辑。 |
从 PDF 文档中提取文本
从 PDF 文档中检索文本内容,以便轻松编制索引、搜索或内容分析。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
源文件名称
|
source_file_name | True | string |
源文件的名称,包括扩展名 |
|
源文件内容
|
source_file_content | True | byte |
要转换的文件的内容 |
|
页面范围
|
page_range | string |
要从其中提取文本的页面范围,例如 1,5,8-12 |
|
|
出错时失败
|
fail_on_error | boolean |
出错时失败 |
返回
所有作的响应数据
- Body
- operation_response
从 PDF 文档中提取键值对
识别和提取文档中用于处理表单或结构化数据工作流的键值对。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
源文件名称
|
source_file_name | True | string |
源文件的名称,包括扩展名 |
|
源文件内容
|
source_file_content | True | byte |
要转换的文件的内容 |
|
OCR 语言
|
ocr_language | string |
OCR 和 KVP 提取的语言代码,用“+”分隔。 例如,“eng+deu+fra”将添加英语、德语和法语。 |
|
|
DPI
|
dpi | enum |
删除 PDF 中的空白页 |
|
|
KVP 输出格式
|
kvp_format | enum |
用逗号分隔的输出格式。 KVP 数据可以在 JSON、CSV 和 XML 中输出。 e.g. json,csv,xml |
|
|
页面范围
|
page_range | string |
KVP 要处理的页面。 对第 1 到 5 页使用“1 - 5”的字符串,或使用“1、5、6”字符串来指定页面 1 和 5 和 6。 |
|
|
Autorotate
|
autorotate | enum |
如果文本没有正确的方向,则将其设置为“是”将自动旋转页面。 |
|
|
剪裁符号
|
trim_symbols | enum |
如果将其设置为“是”,则会从值的开头/结尾删除任何符号,但哈希“#”或句点“.”符号除外。 |
|
|
包括键边界框
|
include_key_bounding_box | enum |
在输出中包含键的边界框值 |
|
|
包括值边界框
|
include_value_bounding_box | enum |
在输出中包含值的边界框值 |
|
|
包括页码
|
include_page_number | enum |
在输出中包含键值对的页码 |
|
|
包括置信度
|
include_confidence | enum |
在输出中包含键值对的置信度分数。 置信度在 0(无置信度)和 100(完全置信度)之间测量。 |
|
|
置信度阈值
|
confidence_threshold | integer |
键值对必须达到的置信度阈值才能包含在输出中。 将丢弃阈值下的结果。 |
|
|
包含类型
|
include_type | enum |
在输出中包含键值对的数据类型 |
|
|
预期密钥
|
expected_keys | string |
包含预期键和同义词的 JSON 字符串 |
|
|
出错时失败
|
fail_on_error | boolean |
出错时失败 |
返回
所有作的响应数据
- Body
- operation_response
使用 OCR 从 PDF 文件中提取文本
使用 OCR 技术从扫描的文档或图像中提取文本,使其可搜索和编辑。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
源文件名称
|
source_file_name | True | string |
源文件的名称,包括扩展名 |
|
源文件内容
|
source_file_content | True | byte |
文件内容到 OCR |
|
语言
|
language | enum |
语言 |
|
|
X 坐标
|
x | string |
X 坐标(以 Pts 为单位,1/72 英寸) |
|
|
Y 坐标
|
y | string |
Y 坐标(以磅为单位,1/72 英寸) |
|
|
宽度
|
width | string |
OCR 区域的宽度(以 Pts 为单位,1/72 英寸) |
|
|
高度
|
height | string |
OCR 区域的高度(在 Pts 中,1/72 英寸) |
|
|
页码
|
page_number | string |
页码(将空白保留至 OCR 所有页面) |
|
|
Performance
|
performance | enum |
性能() |
|
|
黑名单/允许列表
|
characters_option | enum |
“字符”选项 |
|
|
字符数
|
characters | string |
将字符加入黑名单或允许列表 |
|
|
使用分页
|
paginate | boolean |
标页数 |
|
|
出错时失败
|
fail_on_error | boolean |
出错时失败 |
返回
OCRText作的响应数据
定义
ocr_operation_response
OCRText作的响应数据
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
Out text
|
out_text | string |
以纯文本提取的 OCRed 文本。 |
|
基文件名
|
base_file_name | string |
没有扩展名的输入文件的名称。 |
|
结果代码
|
result_code | enum |
作结果代码。 |
|
结果详细信息
|
result_details | string |
作结果详细信息。 |
operation_response
所有作的响应数据
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
处理的文件内容
|
processed_file_content | byte |
Muhimbi 转换器生成的文件。 |
|
基文件名
|
base_file_name | string |
没有扩展名的输入文件的名称。 |
|
结果代码
|
result_code | enum |
作结果代码。 |
|
结果详细信息
|
result_details | string |
作结果详细信息。 |