다음을 통해 공유


영양소 - PDF에서 추출(미리 보기)

영양 문서 변환기 추출 작업을 사용하여 강력한 PDF 텍스트 및 데이터 추출의 잠금을 해제합니다. 텍스트, 데이터를 원활하게 검색하고, 키-값 쌍을 추출하고, OCR 기술을 활용하여 스캔한 문서를 처리합니다. 인덱싱, 검색, 콘텐츠 분석 및 구조적 데이터 워크플로에 적합합니다.

이 커넥터는 다음 제품 및 지역에서 사용할 수 있습니다.

서비스 클래스 Regions
Copilot Studio Premium 다음을 제외한 모든 Power Automate 지역 :
     - 미국 정부(GCC)
     - 미국 정부(GCC High)
     - 21Vianet에서 운영하는 중국 클라우드
     - 미국 국방부(DoD)
논리 앱 스탠다드 다음을 제외한 모든 Logic Apps 지역 :
     - Azure Government 지역
     - Azure 중국 지역
     - 미국 국방부(DoD)
Power Apps Premium 다음을 제외한 모든 Power Apps 지역 :
     - 미국 정부(GCC)
     - 미국 정부(GCC High)
     - 21Vianet에서 운영하는 중국 클라우드
     - 미국 국방부(DoD)
Power Automate Premium 다음을 제외한 모든 Power Automate 지역 :
     - 미국 정부(GCC)
     - 미국 정부(GCC High)
     - 21Vianet에서 운영하는 중국 클라우드
     - 미국 국방부(DoD)
연락처
이름 영양소(이전의 무힘비) 지원
URL https://support.nutrient.io/hc/en-us/requests/new
전자 메일 support+low-code@nutrient.io
커넥터 메타데이터
게시자 영양으로 무힘비 거래
웹 사이트 https://www.nutrient.io/low-code/
개인 정보 보호 정책 https://www.nutrient.io/legal/privacy/
카테고리 합작; 콘텐츠 및 파일

PDF에서 텍스트 및 데이터 추출

영양 문서 변환기를 사용하면 Power Automate의 자동화된 워크플로의 일부로 PDF 파일에서 텍스트, 데이터 또는 특정 페이지를 추출할 수 있습니다. OCR을 사용하여 이미지에서 텍스트를 추출할 수도 있습니다.

사용 가능한 작업

워크플로에서 이러한 작업을 구현하는 방법에 대한 단계별 지침은 연결된 가이드를 참조하세요.

필수 조건

영양 문서 변환기를 사용하려면 무료 또는 평가판 계정이 필요합니다. 이러한 계정 유형 간의 차이점을 이해하려면 비교 가이드 를 참조하세요.

시작하기

다음 단계에 따라 Nutrient Document Converter 커넥터 사용을 시작합니다.

알려진 문제 및 제한 사항

IRM, DRM, RMS 또는 AIP 솔루션으로 보호되는 문서는 보안 제한으로 인해 처리할 수 없습니다.

질문이나 지원을 받으려면 지원 팀에 문의하세요.

제한 한도

Name 호출 갱신 기간
연결당 API 호출 100 60초

동작

OCR을 사용하여 PDF 파일에서 텍스트 추출

OCR 기술을 사용하여 스캔한 문서 또는 이미지에서 텍스트를 추출하여 검색 가능하고 편집할 수 있도록 합니다.

PDF 문서에서 키 값 쌍 추출

양식 또는 구조적 데이터 워크플로를 처리하기 위해 문서에서 키-값 쌍을 식별하고 추출합니다.

PDF 문서에서 텍스트 추출

쉽게 인덱싱, 검색 또는 콘텐츠 분석을 위해 PDF 문서에서 텍스트 콘텐츠를 검색합니다.

OCR을 사용하여 PDF 파일에서 텍스트 추출

OCR 기술을 사용하여 스캔한 문서 또는 이미지에서 텍스트를 추출하여 검색 가능하고 편집할 수 있도록 합니다.

매개 변수

Name 필수 형식 Description
원본 파일 이름
source_file_name True string

확장명을 포함한 원본 파일의 이름

원본 파일 콘텐츠
source_file_content True byte

OCR에 대한 파일의 내용

Language
language enum

Language

X 좌표
x string

X 좌표(Pts, 1/72인치)

Y 좌표
y string

Y 좌표(Pts, 1/72인치)

너비
width string

OCR 영역의 너비(Pts, 1/72인치)

높이
height string

OCR 영역의 높이(Pts, 1/72인치)

페이지 번호
page_number string

페이지 번호(OCR 모든 페이지에 비워 두기)

Performance
performance enum

성능()

블랙리스트/허용 목록
characters_option enum

문자 옵션

문자
characters string

블랙리스트 또는 허용 목록에 추가할 문자

페이지 매김 사용
paginate boolean

페이지 매김

오류 발생
fail_on_error boolean

오류 발생

반환

OCRText 작업에 대한 응답 데이터

PDF 문서에서 키 값 쌍 추출

양식 또는 구조적 데이터 워크플로를 처리하기 위해 문서에서 키-값 쌍을 식별하고 추출합니다.

매개 변수

Name 필수 형식 Description
원본 파일 이름
source_file_name True string

확장명을 포함한 원본 파일의 이름

원본 파일 콘텐츠
source_file_content True byte

변환할 파일의 내용

OCR 언어
ocr_language string

OCR 및 KVP 추출에 대한 언어 코드로, '+'로 구분됩니다. 예를 들어 'eng+deu+fra'는 영어, 독일어 및 프랑스어를 추가합니다.

DPI
dpi enum

PDF에서 빈 페이지 제거

KVP 출력 형식
kvp_format enum

출력 형식은 쉼표로 구분됩니다. KVP 데이터는 JSON, CSV 및 XML로 출력될 수 있습니다. e.g. json,csv,xml

페이지 범위
page_range string

KVP에서 처리할 페이지입니다. 1~5페이지에 '1 - 5' 문자열을 사용하거나 '1, 5, 6' 문자열을 사용하여 페이지 1과 5 및 6을 지정합니다.

자동 로테이트
autorotate enum

텍스트에 올바른 방향이 없으면 이 값을 '예'로 설정하면 페이지가 자동으로 회전됩니다.

기호 자르기
trim_symbols enum

이를 '예'로 설정하면 해시 '#' 또는 마침표 '.' 기호를 제외하고 값의 시작/끝에서 기호가 제거됩니다.

키 경계 상자 포함
include_key_bounding_box enum

출력에 키에 대한 경계 상자 값 포함

값 경계 상자 포함
include_value_bounding_box enum

출력에 값에 대한 경계 상자 값 포함

페이지 번호 포함
include_page_number enum

출력에 키 값 쌍의 페이지 번호 포함

신뢰도 포함
include_confidence enum

출력에 키 값 쌍의 신뢰도 점수를 포함합니다. 신뢰도는 0(신뢰도 없음)에서 100(완전 신뢰도) 사이로 측정됩니다.

신뢰도 임계값
confidence_threshold integer

키 값 쌍이 출력에 포함되려면 도달해야 하는 신뢰도 임계값입니다. 임계값 아래의 결과는 삭제됩니다.

포함 유형
include_type enum

출력에 키 값 쌍의 데이터 형식 포함

필요한 키
expected_keys string

필요한 키와 동의어가 포함된 JSON 문자열

오류 발생
fail_on_error boolean

오류 발생

반환

모든 작업에 대한 응답 데이터

PDF 문서에서 텍스트 추출

쉽게 인덱싱, 검색 또는 콘텐츠 분석을 위해 PDF 문서에서 텍스트 콘텐츠를 검색합니다.

매개 변수

Name 필수 형식 Description
원본 파일 이름
source_file_name True string

확장명을 포함한 원본 파일의 이름

원본 파일 콘텐츠
source_file_content True byte

변환할 파일의 내용

페이지 범위
page_range string

1,5,8-12와 같이 텍스트를 추출할 페이지 범위입니다.

오류 발생
fail_on_error boolean

오류 발생

반환

모든 작업에 대한 응답 데이터

정의

ocr_operation_response

OCRText 작업에 대한 응답 데이터

Name 경로 형식 Description
텍스트 나가기
out_text string

일반 텍스트로 추출된OCRed 텍스트입니다.

기본 파일 이름
base_file_name string

확장명을 사용하지 않는 입력 파일의 이름입니다.

결과 코드
result_code enum

작업 결과 코드입니다.

결과 세부 정보
result_details string

작업 결과 세부 정보입니다.

operation_response

모든 작업에 대한 응답 데이터

Name 경로 형식 Description
처리된 파일 콘텐츠
processed_file_content byte

Muhimbi 변환기에서 생성된 파일입니다.

기본 파일 이름
base_file_name string

확장명을 사용하지 않는 입력 파일의 이름입니다.

결과 코드
result_code enum

작업 결과 코드입니다.

결과 세부 정보
result_details string

작업 결과 세부 정보입니다.