共用方式為


營養素 - 從 PDF 擷取 (預覽版)

使用 Nutrient Document Converter Extract 操作解鎖強大的 PDF 文本和數據提取。 無縫檢索文字、資料、提取鍵值對,並利用 OCR 技術處理掃描文件。 非常適合索引、搜尋、內容分析和結構化資料工作流程。

此連接器適用於以下產品和區域:

服務 Class Regions
副駕駛工作室 進階 除下列區域外的所有 Power Automate 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
邏輯應用程式 標準 所有 Logic Apps 區域, 但下列區域除外:
     - Azure Government 區域
     - Azure 中國區域
     - 美國國防部 (DoD)
Power Apps 進階 除下列區域外的所有 Power Apps 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
Power Automate(自動化服務) 進階 除下列區域外的所有 Power Automate 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
連絡人​​
名稱 營養(以前稱為 Muhimbi)支持
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
連接器中繼資料
Publisher Muhimbi 作為營養品進行交易
網站 https://www.nutrient.io/low-code/
隱私策略 https://www.nutrient.io/legal/privacy/
類別 通敵;內容和文件

從 PDF 中提取文字和資料

Nutrient Document Converter 可讓您從 PDF 檔案擷取文字、資料或特定頁面,作為 Power Automate 自動化工作流程的一部分。 您也可以使用 OCR 從影像中擷取文字。

可用的動作

請參閱連結的指南,以取得在工作流程中實作這些動作的逐步指示。

先決條件

要使用 Nutrient Document Converter,您需要一個 免費試用 帳戶。 請參閱 比較指南 ,了解這些帳戶類型之間的差異。

入門指南

請依照下列步驟開始使用 Nutrient Document Converter 連接器:

已知問題與限制

由於安全性限制,無法處理受 IRM、DRM、RMS 或 AIP 解決方案 保護的文件。

如有問題或協助,請聯絡我們的 支援團隊

節流限制

名稱 呼叫 續約期間
每個連線的 API 呼叫 100 60 秒

動作

使用 OCR 從 PDF 檔案擷取文字

使用 OCR 技術從掃描的文件或圖像中提取文本,使其可搜尋和編輯。

從 PDF 文件擷取文字

從 PDF 文件中檢索文字內容,以便於索引、搜尋或內容分析。

從 PDF 文件擷取索引鍵值組

從文件中識別和提取鍵值組,以處理表單或結構化資料工作流程。

使用 OCR 從 PDF 檔案擷取文字

使用 OCR 技術從掃描的文件或圖像中提取文本,使其可搜尋和編輯。

參數

名稱 機碼 必要 類型 Description
來源檔案名稱
source_file_name True string

來源檔案的名稱,包括副檔名

來源檔案內容
source_file_content True byte

OCR 的檔案內容

語言
language enum

語言

X 座標
x string

X 座標 (以 Pts,1/72 英吋為單位)

Y 座標
y string

Y 座標 (單位為單位,1/72 英吋)

寬度
width string

OCR 區域的寬度(以點為單位,1/72 英吋)

高度
height string

OCR 區域的高度 (單位為單位,1/72 英吋)

頁碼
page_number string

頁碼(留空以OCR所有頁面)

Performance
performance enum

性能 ()

黑名單/白名單
characters_option enum

字元選項

字元
characters string

要列入黑名單或白名單的字元

使用分頁
paginate boolean

分頁

錯誤失敗
fail_on_error boolean

錯誤失敗

傳回

OCRText 作業的回應資料

從 PDF 文件擷取文字

從 PDF 文件中檢索文字內容,以便於索引、搜尋或內容分析。

參數

名稱 機碼 必要 類型 Description
來源檔案名稱
source_file_name True string

來源檔案的名稱,包括副檔名

來源檔案內容
source_file_content True byte

要轉換的檔案內容

頁面範圍
page_range string

從中提取文本的頁面範圍,例如 1、5、8-12

錯誤失敗
fail_on_error boolean

錯誤失敗

傳回

所有作業的回應資料

從 PDF 文件擷取索引鍵值組

從文件中識別和提取鍵值組,以處理表單或結構化資料工作流程。

參數

名稱 機碼 必要 類型 Description
來源檔案名稱
source_file_name True string

來源檔案的名稱,包括副檔名

來源檔案內容
source_file_content True byte

要轉換的檔案內容

OCR 語言
ocr_language string

OCR 和 KVP 提取的語言代碼,以 '+' 分隔。 例如,'eng+deu+fra' 會添加英語、德語和法語。

DPI
dpi enum

移除 PDF 中的空白頁

KVP 輸出格式
kvp_format enum

以逗號分隔的輸出格式。 KVP 數據可以以 JSON、CSV 和 XML 格式輸出。 e.g. json,csv,xml

頁面範圍
page_range string

KVP 要處理的頁面。 第 1 至 5 頁使用字串 '1 - 5',或使用 '1、5、6' 字串指定第 1 頁、第 5 頁和第 6 頁。

自動旋轉
autorotate enum

如果文字方向不正確,則將其設定為「是」將自動旋轉頁面。

修剪符號
trim_symbols enum

將此值設定為「是」將從值的開頭/結尾中刪除任何符號,但雜湊「#」或句點「.」符號除外。

包括關鍵鍵邊界方塊
include_key_bounding_box enum

在輸出中包含索引鍵的邊界方塊值

包括值邊界方塊
include_value_bounding_box enum

在輸出中包含值的邊界方塊值

包括頁碼
include_page_number enum

在輸出中包含索引鍵值組的頁碼

包括信心
include_confidence enum

在輸出中包含索引鍵值組的信賴分數。 信賴度的測量範圍介於 0 (無置信度) 和 100 (完全信賴度) 之間。

信賴度臨界值
confidence_threshold integer

索引鍵值組必須達到的信賴度臨界值才能包含在輸出中。 低於臨界值的結果會捨棄。

包含類型
include_type enum

在輸出中包含索引鍵值組的資料類型

預期索引鍵
expected_keys string

包含預期索引鍵和同義字的 JSON 字串

錯誤失敗
fail_on_error boolean

錯誤失敗

傳回

所有作業的回應資料

定義

ocr_operation_response

OCRText 作業的回應資料

名稱 路徑 類型 Description
輸出文字
out_text string

以純文字形式提取 OCR 文字。

基本檔案名稱
base_file_name string

沒有副檔名的輸入檔案名稱。

結果碼
result_code enum

操作結果代碼。

結果詳情
result_details string

操作結果詳細資訊。

operation_response

所有作業的回應資料

名稱 路徑 類型 Description
已處理的檔案內容
processed_file_content byte

由 Muhimbi 轉換器生成的文件。

基本檔案名稱
base_file_name string

沒有副檔名的輸入檔案名稱。

結果碼
result_code enum

操作結果代碼。

結果詳情
result_details string

操作結果詳細資訊。