영양소 - PDF에서 추출(미리 보기)
영양 문서 변환기 추출 작업을 사용하여 강력한 PDF 텍스트 및 데이터 추출의 잠금을 해제합니다. 텍스트, 데이터를 원활하게 검색하고, 키-값 쌍을 추출하고, OCR 기술을 활용하여 스캔한 문서를 처리합니다. 인덱싱, 검색, 콘텐츠 분석 및 구조적 데이터 워크플로에 적합합니다.
이 커넥터는 다음 제품 및 지역에서 사용할 수 있습니다.
| 서비스 | 클래스 | Regions |
|---|---|---|
| Copilot Studio | Premium | 다음을 제외한 모든 Power Automate 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD) |
| 논리 앱 | 스탠다드 | 다음을 제외한 모든 Logic Apps 지역 : - Azure Government 지역 - Azure 중국 지역 - 미국 국방부(DoD) |
| Power Apps | Premium | 다음을 제외한 모든 Power Apps 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD) |
| Power Automate | Premium | 다음을 제외한 모든 Power Automate 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD) |
| 연락처 | |
|---|---|
| 이름 | 영양소(이전의 무힘비) 지원 |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| 전자 메일 | support+low-code@nutrient.io |
| 커넥터 메타데이터 | |
|---|---|
| 게시자 | 영양으로 무힘비 거래 |
| 웹 사이트 | https://www.nutrient.io/low-code/ |
| 개인 정보 보호 정책 | https://www.nutrient.io/legal/privacy/ |
| 카테고리 | 합작; 콘텐츠 및 파일 |
PDF에서 텍스트 및 데이터 추출
영양 문서 변환기를 사용하면 Power Automate의 자동화된 워크플로의 일부로 PDF 파일에서 텍스트, 데이터 또는 특정 페이지를 추출할 수 있습니다. OCR을 사용하여 이미지에서 텍스트를 추출할 수도 있습니다.
사용 가능한 작업
워크플로에서 이러한 작업을 구현하는 방법에 대한 단계별 지침은 연결된 가이드를 참조하세요.
필수 조건
영양 문서 변환기를 사용하려면 무료 또는 평가판 계정이 필요합니다. 이러한 계정 유형 간의 차이점을 이해하려면 비교 가이드 를 참조하세요.
시작하기
다음 단계에 따라 Nutrient Document Converter 커넥터 사용을 시작합니다.
- 이 양식을 작성하여 30일 평가판에 등록합니다.
- 양식을 제출하면 평가판 활성화 세부 정보가 포함된 이메일을 받게 됩니다.
- 프로세스 연습 은 시작 비디오를 참조하세요.
- 자세한 지침은 Power Automate용 문서 변환기 가이드 를 참조하세요.
- 실제 예제는 Power Automate 및 Logic Apps 자습서를 살펴보세요.
알려진 문제 및 제한 사항
IRM, DRM, RMS 또는 AIP 솔루션으로 보호되는 문서는 보안 제한으로 인해 처리할 수 없습니다.
질문이나 지원을 받으려면 지원 팀에 문의하세요.
제한 한도
| Name | 호출 | 갱신 기간 |
|---|---|---|
| 연결당 API 호출 | 100 | 60초 |
동작
| OCR을 사용하여 PDF 파일에서 텍스트 추출 |
OCR 기술을 사용하여 스캔한 문서 또는 이미지에서 텍스트를 추출하여 검색 가능하고 편집할 수 있도록 합니다. |
| PDF 문서에서 키 값 쌍 추출 |
양식 또는 구조적 데이터 워크플로를 처리하기 위해 문서에서 키-값 쌍을 식별하고 추출합니다. |
| PDF 문서에서 텍스트 추출 |
쉽게 인덱싱, 검색 또는 콘텐츠 분석을 위해 PDF 문서에서 텍스트 콘텐츠를 검색합니다. |
OCR을 사용하여 PDF 파일에서 텍스트 추출
OCR 기술을 사용하여 스캔한 문서 또는 이미지에서 텍스트를 추출하여 검색 가능하고 편집할 수 있도록 합니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
원본 파일 이름
|
source_file_name | True | string |
확장명을 포함한 원본 파일의 이름 |
|
원본 파일 콘텐츠
|
source_file_content | True | byte |
OCR에 대한 파일의 내용 |
|
Language
|
language | enum |
Language |
|
|
X 좌표
|
x | string |
X 좌표(Pts, 1/72인치) |
|
|
Y 좌표
|
y | string |
Y 좌표(Pts, 1/72인치) |
|
|
너비
|
width | string |
OCR 영역의 너비(Pts, 1/72인치) |
|
|
높이
|
height | string |
OCR 영역의 높이(Pts, 1/72인치) |
|
|
페이지 번호
|
page_number | string |
페이지 번호(OCR 모든 페이지에 비워 두기) |
|
|
Performance
|
performance | enum |
성능() |
|
|
블랙리스트/허용 목록
|
characters_option | enum |
문자 옵션 |
|
|
문자
|
characters | string |
블랙리스트 또는 허용 목록에 추가할 문자 |
|
|
페이지 매김 사용
|
paginate | boolean |
페이지 매김 |
|
|
오류 발생
|
fail_on_error | boolean |
오류 발생 |
반환
OCRText 작업에 대한 응답 데이터
PDF 문서에서 키 값 쌍 추출
양식 또는 구조적 데이터 워크플로를 처리하기 위해 문서에서 키-값 쌍을 식별하고 추출합니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
원본 파일 이름
|
source_file_name | True | string |
확장명을 포함한 원본 파일의 이름 |
|
원본 파일 콘텐츠
|
source_file_content | True | byte |
변환할 파일의 내용 |
|
OCR 언어
|
ocr_language | string |
OCR 및 KVP 추출에 대한 언어 코드로, '+'로 구분됩니다. 예를 들어 'eng+deu+fra'는 영어, 독일어 및 프랑스어를 추가합니다. |
|
|
DPI
|
dpi | enum |
PDF에서 빈 페이지 제거 |
|
|
KVP 출력 형식
|
kvp_format | enum |
출력 형식은 쉼표로 구분됩니다. KVP 데이터는 JSON, CSV 및 XML로 출력될 수 있습니다. e.g. json,csv,xml |
|
|
페이지 범위
|
page_range | string |
KVP에서 처리할 페이지입니다. 1~5페이지에 '1 - 5' 문자열을 사용하거나 '1, 5, 6' 문자열을 사용하여 페이지 1과 5 및 6을 지정합니다. |
|
|
자동 로테이트
|
autorotate | enum |
텍스트에 올바른 방향이 없으면 이 값을 '예'로 설정하면 페이지가 자동으로 회전됩니다. |
|
|
기호 자르기
|
trim_symbols | enum |
이를 '예'로 설정하면 해시 '#' 또는 마침표 '.' 기호를 제외하고 값의 시작/끝에서 기호가 제거됩니다. |
|
|
키 경계 상자 포함
|
include_key_bounding_box | enum |
출력에 키에 대한 경계 상자 값 포함 |
|
|
값 경계 상자 포함
|
include_value_bounding_box | enum |
출력에 값에 대한 경계 상자 값 포함 |
|
|
페이지 번호 포함
|
include_page_number | enum |
출력에 키 값 쌍의 페이지 번호 포함 |
|
|
신뢰도 포함
|
include_confidence | enum |
출력에 키 값 쌍의 신뢰도 점수를 포함합니다. 신뢰도는 0(신뢰도 없음)에서 100(완전 신뢰도) 사이로 측정됩니다. |
|
|
신뢰도 임계값
|
confidence_threshold | integer |
키 값 쌍이 출력에 포함되려면 도달해야 하는 신뢰도 임계값입니다. 임계값 아래의 결과는 삭제됩니다. |
|
|
포함 유형
|
include_type | enum |
출력에 키 값 쌍의 데이터 형식 포함 |
|
|
필요한 키
|
expected_keys | string |
필요한 키와 동의어가 포함된 JSON 문자열 |
|
|
오류 발생
|
fail_on_error | boolean |
오류 발생 |
반환
모든 작업에 대한 응답 데이터
PDF 문서에서 텍스트 추출
쉽게 인덱싱, 검색 또는 콘텐츠 분석을 위해 PDF 문서에서 텍스트 콘텐츠를 검색합니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
원본 파일 이름
|
source_file_name | True | string |
확장명을 포함한 원본 파일의 이름 |
|
원본 파일 콘텐츠
|
source_file_content | True | byte |
변환할 파일의 내용 |
|
페이지 범위
|
page_range | string |
1,5,8-12와 같이 텍스트를 추출할 페이지 범위입니다. |
|
|
오류 발생
|
fail_on_error | boolean |
오류 발생 |
반환
모든 작업에 대한 응답 데이터
정의
ocr_operation_response
OCRText 작업에 대한 응답 데이터
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
텍스트 나가기
|
out_text | string |
일반 텍스트로 추출된OCRed 텍스트입니다. |
|
기본 파일 이름
|
base_file_name | string |
확장명을 사용하지 않는 입력 파일의 이름입니다. |
|
결과 코드
|
result_code | enum |
작업 결과 코드입니다. |
|
결과 세부 정보
|
result_details | string |
작업 결과 세부 정보입니다. |
operation_response
모든 작업에 대한 응답 데이터
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
처리된 파일 콘텐츠
|
processed_file_content | byte |
Muhimbi 변환기에서 생성된 파일입니다. |
|
기본 파일 이름
|
base_file_name | string |
확장명을 사용하지 않는 입력 파일의 이름입니다. |
|
결과 코드
|
result_code | enum |
작업 결과 코드입니다. |
|
결과 세부 정보
|
result_details | string |
작업 결과 세부 정보입니다. |