營養素 - 從 PDF 擷取（預覽版）

使用 Nutrient Document Converter Extract 操作解鎖強大的 PDF 文本和數據提取。無縫檢索文字、資料、提取鍵值對，並利用 OCR 技術處理掃描文件。非常適合索引、搜尋、內容分析和結構化資料工作流程。

此連接器適用於以下產品和區域：

服務	Class	Regions
副駕駛工作室	進階	除下列區域外的所有 Power Automate 區域： - 美國政府（GCC） - 美國政府（海灣合作委員會高中） - 由 21Vianet 營運的中國雲 - 美國國防部（DoD）
邏輯應用程式	標準	所有 Logic Apps 區域，但下列區域除外： - Azure Government 區域 - Azure 中國區域 - 美國國防部（DoD）
Power Apps	進階	除下列區域外的所有 Power Apps 區域： - 美國政府（GCC） - 美國政府（海灣合作委員會高中） - 由 21Vianet 營運的中國雲 - 美國國防部（DoD）
Power Automate（自動化服務）	進階	除下列區域外的所有 Power Automate 區域： - 美國政府（GCC） - 美國政府（海灣合作委員會高中） - 由 21Vianet 營運的中國雲 - 美國國防部（DoD）

連絡人
名稱	營養（以前稱為 Muhimbi）支持
URL	https://support.nutrient.io/hc/en-us/requests/new
Email	support+low-code@nutrient.io

連接器中繼資料
Publisher	Muhimbi 作為營養品進行交易
網站	https://www.nutrient.io/low-code/
隱私策略	https://www.nutrient.io/legal/privacy/
類別	通敵;內容和文件

從 PDF 中提取文字和資料

Nutrient Document Converter 可讓您從 PDF 檔案擷取文字、資料或特定頁面，作為 Power Automate 自動化工作流程的一部分。您也可以使用 OCR 從影像中擷取文字。

可用的動作

請參閱連結的指南，以取得在工作流程中實作這些動作的逐步指示。

先決條件

要使用 Nutrient Document Converter，您需要一個免費或試用帳戶。請參閱比較指南，了解這些帳戶類型之間的差異。

入門指南

請依照下列步驟開始使用 Nutrient Document Converter 連接器：

填寫此表格註冊 30 天試用期。
提交表單後，您將收到一封電子郵件，其中包含您的試用激活詳細信息。
請參閱入門影片，以取得程式的逐步解說。
如需詳細指示，請閱讀適用於 Power Automate 的文件轉換器指南。
探索 Power Automate 和 Logic Apps 教學課程，以取得實際範例。

已知問題與限制

由於安全性限制，無法處理受 IRM、DRM、RMS 或 AIP 解決方案保護的文件。

如有問題或協助，請聯絡我們的支援團隊。

節流限制

名稱	呼叫	續約期間
每個連線的 API 呼叫	100	60 秒

動作

使用 OCR 從 PDF 檔案擷取文字	使用 OCR 技術從掃描的文件或圖像中提取文本，使其可搜尋和編輯。
從 PDF 文件擷取文字	從 PDF 文件中檢索文字內容，以便於索引、搜尋或內容分析。
從 PDF 文件擷取索引鍵值組	從文件中識別和提取鍵值組，以處理表單或結構化資料工作流程。

使用 OCR 從 PDF 檔案擷取文字

作業識別碼：: ocr_text

使用 OCR 技術從掃描的文件或圖像中提取文本，使其可搜尋和編輯。

參數

名稱	機碼	必要	類型	Description
來源檔案名稱	source_file_name	True	string	來源檔案的名稱，包括副檔名
來源檔案內容	source_file_content	True	byte	OCR 的檔案內容
語言	language		enum	語言
X 座標	x		string	X 座標（以 Pts，1/72 英吋為單位）
Y 座標	y		string	Y 座標（單位為單位，1/72 英吋）
寬度	width		string	OCR 區域的寬度（以點為單位，1/72 英吋）
高度	height		string	OCR 區域的高度（單位為單位，1/72 英吋）
頁碼	page_number		string	頁碼（留空以OCR所有頁面）
Performance	performance		enum	性能（）
黑名單/白名單	characters_option		enum	字元選項
字元	characters		string	要列入黑名單或白名單的字元
使用分頁	paginate		boolean	分頁
錯誤失敗	fail_on_error		boolean	錯誤失敗

傳回

OCRText 作業的回應資料

身體: ocr_operation_response

從 PDF 文件擷取文字

作業識別碼：: extract_text

從 PDF 文件中檢索文字內容，以便於索引、搜尋或內容分析。

參數

名稱	機碼	必要	類型	Description
來源檔案名稱	source_file_name	True	string	來源檔案的名稱，包括副檔名
來源檔案內容	source_file_content	True	byte	要轉換的檔案內容
頁面範圍	page_range		string	從中提取文本的頁面範圍，例如 1、5、8-12
錯誤失敗	fail_on_error		boolean	錯誤失敗

傳回

所有作業的回應資料

身體: operation_response

從 PDF 文件擷取索引鍵值組

作業識別碼：: extract_key_value_pairs

從文件中識別和提取鍵值組，以處理表單或結構化資料工作流程。

參數

名稱	機碼	必要	類型	Description
來源檔案名稱	source_file_name	True	string	來源檔案的名稱，包括副檔名
來源檔案內容	source_file_content	True	byte	要轉換的檔案內容
OCR 語言	ocr_language		string	OCR 和 KVP 提取的語言代碼，以 '+' 分隔。例如，'eng+deu+fra' 會添加英語、德語和法語。
DPI	dpi		enum	移除 PDF 中的空白頁
KVP 輸出格式	kvp_format		enum	以逗號分隔的輸出格式。 KVP 數據可以以 JSON、CSV 和 XML 格式輸出。 e.g. json，csv，xml
頁面範圍	page_range		string	KVP 要處理的頁面。第 1 至 5 頁使用字串 '1 - 5'，或使用 '1、5、6' 字串指定第 1 頁、第 5 頁和第 6 頁。
自動旋轉	autorotate		enum	如果文字方向不正確，則將其設定為「是」將自動旋轉頁面。
修剪符號	trim_symbols		enum	將此值設定為「是」將從值的開頭/結尾中刪除任何符號，但雜湊「#」或句點「.」符號除外。
包括關鍵鍵邊界方塊	include_key_bounding_box		enum	在輸出中包含索引鍵的邊界方塊值
包括值邊界方塊	include_value_bounding_box		enum	在輸出中包含值的邊界方塊值
包括頁碼	include_page_number		enum	在輸出中包含索引鍵值組的頁碼
包括信心	include_confidence		enum	在輸出中包含索引鍵值組的信賴分數。信賴度的測量範圍介於 0 （無置信度）和 100 （完全信賴度）之間。
信賴度臨界值	confidence_threshold		integer	索引鍵值組必須達到的信賴度臨界值才能包含在輸出中。低於臨界值的結果會捨棄。
包含類型	include_type		enum	在輸出中包含索引鍵值組的資料類型
預期索引鍵	expected_keys		string	包含預期索引鍵和同義字的 JSON 字串
錯誤失敗	fail_on_error		boolean	錯誤失敗

傳回

所有作業的回應資料

身體: operation_response

定義

ocr_operation_response

OCRText 作業的回應資料

名稱	路徑	類型	Description
輸出文字	out_text	string	以純文字形式提取 OCR 文字。
基本檔案名稱	base_file_name	string	沒有副檔名的輸入檔案名稱。
結果碼	result_code	enum	操作結果代碼。
結果詳情	result_details	string	操作結果詳細資訊。

operation_response

所有作業的回應資料

名稱	路徑	類型	Description
已處理的檔案內容	processed_file_content	byte	由 Muhimbi 轉換器生成的文件。
基本檔案名稱	base_file_name	string	沒有副檔名的輸入檔案名稱。
結果碼	result_code	enum	操作結果代碼。
結果詳情	result_details	string	操作結果詳細資訊。

共用方式為

營養素 - 從 PDF 擷取 （預覽版）

從 PDF 中提取文字和資料

可用的動作

先決條件

入門指南

已知問題與限制

節流限制

動作

使用 OCR 從 PDF 檔案擷取文字

參數

傳回

從 PDF 文件擷取文字

參數

傳回

從 PDF 文件擷取索引鍵值組

參數

傳回

定義

ocr_operation_response

operation_response

營養素 - 從 PDF 擷取（預覽版）