영양소 - PDF에서 추출(미리 보기)

영양 문서 변환기 추출 작업을 사용하여 강력한 PDF 텍스트 및 데이터 추출의 잠금을 해제합니다. 텍스트, 데이터를 원활하게 검색하고, 키-값 쌍을 추출하고, OCR 기술을 활용하여 스캔한 문서를 처리합니다. 인덱싱, 검색, 콘텐츠 분석 및 구조적 데이터 워크플로에 적합합니다.

이 커넥터는 다음 제품 및 지역에서 사용할 수 있습니다.

서비스	클래스	Regions
Copilot Studio	Premium	다음을 제외한 모든 Power Automate 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD)
논리 앱	스탠다드	다음을 제외한 모든 Logic Apps 지역 : - Azure Government 지역 - Azure 중국 지역 - 미국 국방부(DoD)
Power Apps	Premium	다음을 제외한 모든 Power Apps 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD)
Power Automate	Premium	다음을 제외한 모든 Power Automate 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD)

연락처
이름	영양소(이전의 무힘비) 지원
URL	https://support.nutrient.io/hc/en-us/requests/new
전자 메일	support+low-code@nutrient.io

커넥터 메타데이터
게시자	영양으로 무힘비 거래
웹 사이트	https://www.nutrient.io/low-code/
개인 정보 보호 정책	https://www.nutrient.io/legal/privacy/
카테고리	합작; 콘텐츠 및 파일

PDF에서 텍스트 및 데이터 추출

영양 문서 변환기를 사용하면 Power Automate의 자동화된 워크플로의 일부로 PDF 파일에서 텍스트, 데이터 또는 특정 페이지를 추출할 수 있습니다. OCR을 사용하여 이미지에서 텍스트를 추출할 수도 있습니다.

사용 가능한 작업

워크플로에서 이러한 작업을 구현하는 방법에 대한 단계별 지침은 연결된 가이드를 참조하세요.

필수 조건

영양 문서 변환기를 사용하려면 무료 또는 평가판 계정이 필요합니다. 이러한 계정 유형 간의 차이점을 이해하려면 비교 가이드 를 참조하세요.

시작하기

다음 단계에 따라 Nutrient Document Converter 커넥터 사용을 시작합니다.

이 양식을 작성하여 30일 평가판에 등록합니다.
양식을 제출하면 평가판 활성화 세부 정보가 포함된 이메일을 받게 됩니다.
프로세스 연습 은 시작 비디오를 참조하세요.
자세한 지침은 Power Automate용 문서 변환기 가이드 를 참조하세요.
실제 예제는 Power Automate 및 Logic Apps 자습서를 살펴보세요.

알려진 문제 및 제한 사항

IRM, DRM, RMS 또는 AIP 솔루션으로 보호되는 문서는 보안 제한으로 인해 처리할 수 없습니다.

질문이나 지원을 받으려면 지원 팀에 문의하세요.

제한 한도

Name	호출	갱신 기간
연결당 API 호출	100	60초

동작

OCR을 사용하여 PDF 파일에서 텍스트 추출	OCR 기술을 사용하여 스캔한 문서 또는 이미지에서 텍스트를 추출하여 검색 가능하고 편집할 수 있도록 합니다.
PDF 문서에서 키 값 쌍 추출	양식 또는 구조적 데이터 워크플로를 처리하기 위해 문서에서 키-값 쌍을 식별하고 추출합니다.
PDF 문서에서 텍스트 추출	쉽게 인덱싱, 검색 또는 콘텐츠 분석을 위해 PDF 문서에서 텍스트 콘텐츠를 검색합니다.

OCR을 사용하여 PDF 파일에서 텍스트 추출

작업 ID:: ocr_text

OCR 기술을 사용하여 스캔한 문서 또는 이미지에서 텍스트를 추출하여 검색 가능하고 편집할 수 있도록 합니다.

매개 변수

Name	키	필수	형식	Description
원본 파일 이름	source_file_name	True	string	확장명을 포함한 원본 파일의 이름
원본 파일 콘텐츠	source_file_content	True	byte	OCR에 대한 파일의 내용
Language	language		enum	Language
X 좌표	x		string	X 좌표(Pts, 1/72인치)
Y 좌표	y		string	Y 좌표(Pts, 1/72인치)
너비	width		string	OCR 영역의 너비(Pts, 1/72인치)
높이	height		string	OCR 영역의 높이(Pts, 1/72인치)
페이지 번호	page_number		string	페이지 번호(OCR 모든 페이지에 비워 두기)
Performance	performance		enum	성능()
블랙리스트/허용 목록	characters_option		enum	문자 옵션
문자	characters		string	블랙리스트 또는 허용 목록에 추가할 문자
페이지 매김 사용	paginate		boolean	페이지 매김
오류 발생	fail_on_error		boolean	오류 발생

반환

OCRText 작업에 대한 응답 데이터

몸: ocr_operation_response

PDF 문서에서 키 값 쌍 추출

작업 ID:: extract_key_value_pairs

양식 또는 구조적 데이터 워크플로를 처리하기 위해 문서에서 키-값 쌍을 식별하고 추출합니다.

매개 변수

Name	키	필수	형식	Description
원본 파일 이름	source_file_name	True	string	확장명을 포함한 원본 파일의 이름
원본 파일 콘텐츠	source_file_content	True	byte	변환할 파일의 내용
OCR 언어	ocr_language		string	OCR 및 KVP 추출에 대한 언어 코드로, '+'로 구분됩니다. 예를 들어 'eng+deu+fra'는 영어, 독일어 및 프랑스어를 추가합니다.
DPI	dpi		enum	PDF에서 빈 페이지 제거
KVP 출력 형식	kvp_format		enum	출력 형식은 쉼표로 구분됩니다. KVP 데이터는 JSON, CSV 및 XML로 출력될 수 있습니다. e.g. json,csv,xml
페이지 범위	page_range		string	KVP에서 처리할 페이지입니다. 1~5페이지에 '1 - 5' 문자열을 사용하거나 '1, 5, 6' 문자열을 사용하여 페이지 1과 5 및 6을 지정합니다.
자동 로테이트	autorotate		enum	텍스트에 올바른 방향이 없으면 이 값을 '예'로 설정하면 페이지가 자동으로 회전됩니다.
기호 자르기	trim_symbols		enum	이를 '예'로 설정하면 해시 '#' 또는 마침표 '.' 기호를 제외하고 값의 시작/끝에서 기호가 제거됩니다.
키 경계 상자 포함	include_key_bounding_box		enum	출력에 키에 대한 경계 상자 값 포함
값 경계 상자 포함	include_value_bounding_box		enum	출력에 값에 대한 경계 상자 값 포함
페이지 번호 포함	include_page_number		enum	출력에 키 값 쌍의 페이지 번호 포함
신뢰도 포함	include_confidence		enum	출력에 키 값 쌍의 신뢰도 점수를 포함합니다. 신뢰도는 0(신뢰도 없음)에서 100(완전 신뢰도) 사이로 측정됩니다.
신뢰도 임계값	confidence_threshold		integer	키 값 쌍이 출력에 포함되려면 도달해야 하는 신뢰도 임계값입니다. 임계값 아래의 결과는 삭제됩니다.
포함 유형	include_type		enum	출력에 키 값 쌍의 데이터 형식 포함
필요한 키	expected_keys		string	필요한 키와 동의어가 포함된 JSON 문자열
오류 발생	fail_on_error		boolean	오류 발생

반환

모든 작업에 대한 응답 데이터

몸: operation_response

PDF 문서에서 텍스트 추출

작업 ID:: extract_text

쉽게 인덱싱, 검색 또는 콘텐츠 분석을 위해 PDF 문서에서 텍스트 콘텐츠를 검색합니다.

매개 변수

Name	키	필수	형식	Description
원본 파일 이름	source_file_name	True	string	확장명을 포함한 원본 파일의 이름
원본 파일 콘텐츠	source_file_content	True	byte	변환할 파일의 내용
페이지 범위	page_range		string	1,5,8-12와 같이 텍스트를 추출할 페이지 범위입니다.
오류 발생	fail_on_error		boolean	오류 발생

반환

모든 작업에 대한 응답 데이터

몸: operation_response

정의

ocr_operation_response

OCRText 작업에 대한 응답 데이터

Name	경로	형식	Description
텍스트 나가기	out_text	string	일반 텍스트로 추출된OCRed 텍스트입니다.
기본 파일 이름	base_file_name	string	확장명을 사용하지 않는 입력 파일의 이름입니다.
결과 코드	result_code	enum	작업 결과 코드입니다.
결과 세부 정보	result_details	string	작업 결과 세부 정보입니다.

operation_response

모든 작업에 대한 응답 데이터

Name	경로	형식	Description
처리된 파일 콘텐츠	processed_file_content	byte	Muhimbi 변환기에서 생성된 파일입니다.
기본 파일 이름	base_file_name	string	확장명을 사용하지 않는 입력 파일의 이름입니다.
결과 코드	result_code	enum	작업 결과 코드입니다.
결과 세부 정보	result_details	string	작업 결과 세부 정보입니다.

다음을 통해 공유

영양소 - PDF에서 추출(미리 보기)

PDF에서 텍스트 및 데이터 추출

사용 가능한 작업

필수 조건

시작하기

알려진 문제 및 제한 사항

제한 한도

동작

OCR을 사용하여 PDF 파일에서 텍스트 추출

매개 변수

반환

PDF 문서에서 키 값 쌍 추출

매개 변수

반환

PDF 문서에서 텍스트 추출

매개 변수

반환

정의

ocr_operation_response

operation_response