营养物质 - 从 PDF 中提取（预览版）

使用营养文档转换器提取作解锁功能强大的 PDF 文本和数据提取。无缝检索文本、数据、提取键值对，并利用 OCR 技术处理扫描的文档。非常适合用于索引、搜索、内容分析和结构化数据工作流。

此连接器在以下产品和区域中可用：

服务	Class	区域
Copilot Studio	高级	除以下各项外的所有 Power Automate 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）
逻辑应用程序	标准	除以下各项外的所有逻辑应用区域： - Azure 政府区域 - Azure 中国区域 - 美国国防部（DoD）
Power Apps	高级	除以下各项外的所有 Power Apps 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）
Power Automate	高级	除以下各项外的所有 Power Automate 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）

联系人
Name	营养（前穆希姆比）支持
URL	https://support.nutrient.io/hc/en-us/requests/new
Email	support+low-code@nutrient.io

连接器元数据
发布者	穆希姆比交易作为营养物质
网站	https://www.nutrient.io/low-code/
隐私策略	https://www.nutrient.io/legal/privacy/
类别	协作;内容和文件

从 PDF 中提取文本和数据

营养文档转换器使你可以从 PDF 文件中提取文本、数据或特定页面，作为 Power Automate 中自动化工作流的一部分。还可以使用 OCR 从图像中提取文本。

可用操作

有关在工作流中实现这些作的分步说明，请参阅链接指南。

先决条件

若要使用营养文档转换器，需要一个免费或试用帐户。请参阅比较指南，了解这些帐户类型之间的差异。

入门指南

按照以下步骤开始使用营养文档转换器连接器：

通过填写此表单注册 30 天试用版。
提交表单后，将收到一封电子邮件，其中包含试用激活详细信息。
有关过程的演练，请参阅入门视频。
有关详细说明，请阅读适用于 Power Automate 的文档转换器指南。
了解 Power Automate 和逻辑应用教程，了解实际示例。

已知问题和限制

由于安全限制，无法处理受 IRM、DRM、RMS 或 AIP 解决方案保护的文档。

有关问题或帮助，请联系我们的支持团队。

限制

名称	调用	续订期
每个连接的 API 调用数	100	60 秒

操作

从 PDF 文档中提取文本	从 PDF 文档中检索文本内容，以便轻松编制索引、搜索或内容分析。
从 PDF 文档中提取键值对	识别和提取文档中用于处理表单或结构化数据工作流的键值对。
使用 OCR 从 PDF 文件中提取文本	使用 OCR 技术从扫描的文档或图像中提取文本，使其可搜索和编辑。

从 PDF 文档中提取文本

操作 ID:: extract_text

从 PDF 文档中检索文本内容，以便轻松编制索引、搜索或内容分析。

参数

名称	密钥	必需	类型	说明
源文件名称	source_file_name	True	string	源文件的名称，包括扩展名
源文件内容	source_file_content	True	byte	要转换的文件的内容
页面范围	page_range		string	要从其中提取文本的页面范围，例如 1,5,8-12
出错时失败	fail_on_error		boolean	出错时失败

所有作的响应数据

Body: operation_response

从 PDF 文档中提取键值对

操作 ID:: extract_key_value_pairs

识别和提取文档中用于处理表单或结构化数据工作流的键值对。

参数

名称	密钥	必需	类型	说明
源文件名称	source_file_name	True	string	源文件的名称，包括扩展名
源文件内容	source_file_content	True	byte	要转换的文件的内容
OCR 语言	ocr_language		string	OCR 和 KVP 提取的语言代码，用“+”分隔。例如，“eng+deu+fra”将添加英语、德语和法语。
DPI	dpi		enum	删除 PDF 中的空白页
KVP 输出格式	kvp_format		enum	用逗号分隔的输出格式。 KVP 数据可以在 JSON、CSV 和 XML 中输出。 e.g. json，csv，xml
页面范围	page_range		string	KVP 要处理的页面。对第 1 到 5 页使用“1 - 5”的字符串，或使用“1、5、6”字符串来指定页面 1 和 5 和 6。
Autorotate	autorotate		enum	如果文本没有正确的方向，则将其设置为“是”将自动旋转页面。
剪裁符号	trim_symbols		enum	如果将其设置为“是”，则会从值的开头/结尾删除任何符号，但哈希“#”或句点“.”符号除外。
包括键边界框	include_key_bounding_box		enum	在输出中包含键的边界框值
包括值边界框	include_value_bounding_box		enum	在输出中包含值的边界框值
包括页码	include_page_number		enum	在输出中包含键值对的页码
包括置信度	include_confidence		enum	在输出中包含键值对的置信度分数。置信度在 0（无置信度）和 100（完全置信度）之间测量。
置信度阈值	confidence_threshold		integer	键值对必须达到的置信度阈值才能包含在输出中。将丢弃阈值下的结果。
包含类型	include_type		enum	在输出中包含键值对的数据类型
预期密钥	expected_keys		string	包含预期键和同义词的 JSON 字符串
出错时失败	fail_on_error		boolean	出错时失败

所有作的响应数据

Body: operation_response

使用 OCR 从 PDF 文件中提取文本

操作 ID:: ocr_text

使用 OCR 技术从扫描的文档或图像中提取文本，使其可搜索和编辑。

参数

名称	密钥	必需	类型	说明
源文件名称	source_file_name	True	string	源文件的名称，包括扩展名
源文件内容	source_file_content	True	byte	文件内容到 OCR
语言	language		enum	语言
X 坐标	x		string	X 坐标（以 Pts 为单位，1/72 英寸）
Y 坐标	y		string	Y 坐标（以磅为单位，1/72 英寸）
宽度	width		string	OCR 区域的宽度（以 Pts 为单位，1/72 英寸）
高度	height		string	OCR 区域的高度（在 Pts 中，1/72 英寸）
页码	page_number		string	页码（将空白保留至 OCR 所有页面）
Performance	performance		enum	性能（）
黑名单/允许列表	characters_option		enum	“字符”选项
字符数	characters		string	将字符加入黑名单或允许列表
使用分页	paginate		boolean	标页数
出错时失败	fail_on_error		boolean	出错时失败

OCRText作的响应数据

Body: ocr_operation_response

定义

ocr_operation_response

OCRText作的响应数据

名称	路径	类型	说明
Out text	out_text	string	以纯文本提取的 OCRed 文本。
基文件名	base_file_name	string	没有扩展名的输入文件的名称。
结果代码	result_code	enum	作结果代码。
结果详细信息	result_details	string	作结果详细信息。

operation_response

所有作的响应数据

名称	路径	类型	说明
处理的文件内容	processed_file_content	byte	Muhimbi 转换器生成的文件。
基文件名	base_file_name	string	没有扩展名的输入文件的名称。
结果代码	result_code	enum	作结果代码。
结果详细信息	result_details	string	作结果详细信息。

通过

参数

返回

参数

返回

参数

返回

通过

营养物质 - 从 PDF 中提取 （预览版）

从 PDF 中提取文本和数据

可用操作

先决条件

入门指南

已知问题和限制

限制

操作

从 PDF 文档中提取文本

参数

返回

从 PDF 文档中提取键值对

参数

返回

使用 OCR 从 PDF 文件中提取文本

参数

返回

定义

ocr_operation_response

operation_response

营养物质 - 从 PDF 中提取（预览版）