營養素 - 從 PDF 擷取 (預覽版)
使用 Nutrient Document Converter Extract 操作解鎖強大的 PDF 文本和數據提取。 無縫檢索文字、資料、提取鍵值對,並利用 OCR 技術處理掃描文件。 非常適合索引、搜尋、內容分析和結構化資料工作流程。
此連接器適用於以下產品和區域:
| 服務 | Class | Regions |
|---|---|---|
| 副駕駛工作室 | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 邏輯應用程式 | 標準 | 所有 Logic Apps 區域, 但下列區域除外: - Azure Government 區域 - Azure 中國區域 - 美國國防部 (DoD) |
| Power Apps | 進階 | 除下列區域外的所有 Power Apps 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| Power Automate(自動化服務) | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 連絡人 | |
|---|---|
| 名稱 | 營養(以前稱為 Muhimbi)支持 |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| support+low-code@nutrient.io |
| 連接器中繼資料 | |
|---|---|
| Publisher | Muhimbi 作為營養品進行交易 |
| 網站 | https://www.nutrient.io/low-code/ |
| 隱私策略 | https://www.nutrient.io/legal/privacy/ |
| 類別 | 通敵;內容和文件 |
從 PDF 中提取文字和資料
Nutrient Document Converter 可讓您從 PDF 檔案擷取文字、資料或特定頁面,作為 Power Automate 自動化工作流程的一部分。 您也可以使用 OCR 從影像中擷取文字。
可用的動作
請參閱連結的指南,以取得在工作流程中實作這些動作的逐步指示。
先決條件
要使用 Nutrient Document Converter,您需要一個 免費 或 試用 帳戶。 請參閱 比較指南 ,了解這些帳戶類型之間的差異。
入門指南
請依照下列步驟開始使用 Nutrient Document Converter 連接器:
- 填寫 此表格註冊 30 天試用期。
- 提交表單後,您將收到一封電子郵件,其中包含您的試用激活詳細信息。
- 請參閱 入門影片 ,以取得程式的逐步解說。
- 如需詳細指示,請閱讀適用於 Power Automate 的文件轉換器指南 。
- 探索 Power Automate 和 Logic Apps 教學課程, 以取得實際範例。
已知問題與限制
由於安全性限制,無法處理受 IRM、DRM、RMS 或 AIP 解決方案 保護的文件。
如有問題或協助,請聯絡我們的 支援團隊。
節流限制
| 名稱 | 呼叫 | 續約期間 |
|---|---|---|
| 每個連線的 API 呼叫 | 100 | 60 秒 |
動作
| 使用 OCR 從 PDF 檔案擷取文字 |
使用 OCR 技術從掃描的文件或圖像中提取文本,使其可搜尋和編輯。 |
| 從 PDF 文件擷取文字 |
從 PDF 文件中檢索文字內容,以便於索引、搜尋或內容分析。 |
| 從 PDF 文件擷取索引鍵值組 |
從文件中識別和提取鍵值組,以處理表單或結構化資料工作流程。 |
使用 OCR 從 PDF 檔案擷取文字
使用 OCR 技術從掃描的文件或圖像中提取文本,使其可搜尋和編輯。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
來源檔案名稱
|
source_file_name | True | string |
來源檔案的名稱,包括副檔名 |
|
來源檔案內容
|
source_file_content | True | byte |
OCR 的檔案內容 |
|
語言
|
language | enum |
語言 |
|
|
X 座標
|
x | string |
X 座標 (以 Pts,1/72 英吋為單位) |
|
|
Y 座標
|
y | string |
Y 座標 (單位為單位,1/72 英吋) |
|
|
寬度
|
width | string |
OCR 區域的寬度(以點為單位,1/72 英吋) |
|
|
高度
|
height | string |
OCR 區域的高度 (單位為單位,1/72 英吋) |
|
|
頁碼
|
page_number | string |
頁碼(留空以OCR所有頁面) |
|
|
Performance
|
performance | enum |
性能 () |
|
|
黑名單/白名單
|
characters_option | enum |
字元選項 |
|
|
字元
|
characters | string |
要列入黑名單或白名單的字元 |
|
|
使用分頁
|
paginate | boolean |
分頁 |
|
|
錯誤失敗
|
fail_on_error | boolean |
錯誤失敗 |
傳回
OCRText 作業的回應資料
從 PDF 文件擷取文字
從 PDF 文件中檢索文字內容,以便於索引、搜尋或內容分析。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
來源檔案名稱
|
source_file_name | True | string |
來源檔案的名稱,包括副檔名 |
|
來源檔案內容
|
source_file_content | True | byte |
要轉換的檔案內容 |
|
頁面範圍
|
page_range | string |
從中提取文本的頁面範圍,例如 1、5、8-12 |
|
|
錯誤失敗
|
fail_on_error | boolean |
錯誤失敗 |
傳回
所有作業的回應資料
從 PDF 文件擷取索引鍵值組
從文件中識別和提取鍵值組,以處理表單或結構化資料工作流程。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
來源檔案名稱
|
source_file_name | True | string |
來源檔案的名稱,包括副檔名 |
|
來源檔案內容
|
source_file_content | True | byte |
要轉換的檔案內容 |
|
OCR 語言
|
ocr_language | string |
OCR 和 KVP 提取的語言代碼,以 '+' 分隔。 例如,'eng+deu+fra' 會添加英語、德語和法語。 |
|
|
DPI
|
dpi | enum |
移除 PDF 中的空白頁 |
|
|
KVP 輸出格式
|
kvp_format | enum |
以逗號分隔的輸出格式。 KVP 數據可以以 JSON、CSV 和 XML 格式輸出。 e.g. json,csv,xml |
|
|
頁面範圍
|
page_range | string |
KVP 要處理的頁面。 第 1 至 5 頁使用字串 '1 - 5',或使用 '1、5、6' 字串指定第 1 頁、第 5 頁和第 6 頁。 |
|
|
自動旋轉
|
autorotate | enum |
如果文字方向不正確,則將其設定為「是」將自動旋轉頁面。 |
|
|
修剪符號
|
trim_symbols | enum |
將此值設定為「是」將從值的開頭/結尾中刪除任何符號,但雜湊「#」或句點「.」符號除外。 |
|
|
包括關鍵鍵邊界方塊
|
include_key_bounding_box | enum |
在輸出中包含索引鍵的邊界方塊值 |
|
|
包括值邊界方塊
|
include_value_bounding_box | enum |
在輸出中包含值的邊界方塊值 |
|
|
包括頁碼
|
include_page_number | enum |
在輸出中包含索引鍵值組的頁碼 |
|
|
包括信心
|
include_confidence | enum |
在輸出中包含索引鍵值組的信賴分數。 信賴度的測量範圍介於 0 (無置信度) 和 100 (完全信賴度) 之間。 |
|
|
信賴度臨界值
|
confidence_threshold | integer |
索引鍵值組必須達到的信賴度臨界值才能包含在輸出中。 低於臨界值的結果會捨棄。 |
|
|
包含類型
|
include_type | enum |
在輸出中包含索引鍵值組的資料類型 |
|
|
預期索引鍵
|
expected_keys | string |
包含預期索引鍵和同義字的 JSON 字串 |
|
|
錯誤失敗
|
fail_on_error | boolean |
錯誤失敗 |
傳回
所有作業的回應資料
定義
ocr_operation_response
OCRText 作業的回應資料
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
輸出文字
|
out_text | string |
以純文字形式提取 OCR 文字。 |
|
基本檔案名稱
|
base_file_name | string |
沒有副檔名的輸入檔案名稱。 |
|
結果碼
|
result_code | enum |
操作結果代碼。 |
|
結果詳情
|
result_details | string |
操作結果詳細資訊。 |
operation_response
所有作業的回應資料
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
已處理的檔案內容
|
processed_file_content | byte |
由 Muhimbi 轉換器生成的文件。 |
|
基本檔案名稱
|
base_file_name | string |
沒有副檔名的輸入檔案名稱。 |
|
結果碼
|
result_code | enum |
操作結果代碼。 |
|
結果詳情
|
result_details | string |
操作結果詳細資訊。 |