다음을 통해 공유


Foundry Tools에서의 Azure 콘텐츠 이해 문서 솔루션

중요합니다

이 기능은 프리뷰로 제공됩니다. 공개 미리 보기 릴리스에서는 현재 활발하게 개발 중인 기능에 대한 조기 액세스를 제공합니다. 기능, 접근 방식 및 프로세스는 일반 공급 전에 기능이 변경되거나 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

Content Understanding은 정교한 문서 분석 기능을 제공합니다. 조직은 이러한 기능을 사용하여 비정형 콘텐츠를 실행 가능하고 조직화된 데이터로 변환할 수 있습니다. Content Understanding은 사용자 지정 가능한 분석기를 사용하여 다양한 문서 및 양식에서 필수 정보, 필드 및 관계를 전문적으로 추출할 수 있습니다.

비즈니스 사용 사례

문서 분석기는 다양한 형식과 템플릿의 복잡한 문서를 처리할 수 있습니다.

  • 계약 수명 주기 관리: 다양한 계약 유형에서 키 필드, 절 및 의무를 추출합니다.
  • 대출 및 모기지 애플리케이션: 처리를 자동화하여 은행, 대출 기관 및 정부 기관에서 더 빠르게 처리할 수 있도록 합니다.
  • 금융 서비스: 재무 보고서 및 자산 관리 보고서와 같은 복잡한 문서를 분석합니다.
  • 비용 관리: 다양한 소매점의 영수증 및 청구서를 구문 분석하여 다양한 형식 및 템플릿에서 비용의 유효성을 검사합니다.
  • 문서 집합 및 기술 자료 시나리오: 문서 집합 전체에서 키 필드를 추출합니다. 다단계 추론을 적용하여 유효성 검사 및 보강과 같은 작업을 처리하는 참조 데이터를 추가합니다.

주요 이점

Content Understanding은 RAG 및 로봇 프로세스 자동화와 같은 중요한 엔터프라이즈 및 비즈니스 시나리오를 해결하도록 설계된 강력한 문서 분석 기능을 제공합니다. 주요 이점은 다음과 같습니다.

  • 지능형 검색 사용: 구조화되지 않은 문서를 구조화되고 검색 가능한 데이터 자산으로 변환하여 조직 전체에서 정보 검색 가능성 및 접근성을 향상시킵니다.
  • 접지된 데이터 추출: 추출된 데이터의 명확한 추적 가능성 및 지역화를 유지하여 효율적인 휴먼 인더 루프 검토 프로세스를 용이하게 하고 투명성과 규정 준수를 보장합니다.
  • 신뢰도 기반 자동화: 기본 제공 신뢰도 채점을 사용하여 문서 처리 작업을 지능적으로 자동화하여 리소스 할당을 최적화하고 운영 비용을 절감하며 의사 결정 정확도를 향상시킬 수 있습니다.
  • 유연한 사용자 지정: 특정 비즈니스 프로세스 및 워크플로에 맞게 문서 분석기를 쉽게 조정하고 조정합니다. 사용자 지정을 사용하면 조직의 특정 요구 사항에 맞게 정확한 추출 및 분류를 수행할 수 있습니다.
  • 향상된 정확도 및 안정성: 중요한 비즈니스 데이터의 정확한 추출 및 분류를 달성하여 오류를 줄이고 자동화된 워크플로에서 운영 효율성을 개선합니다.
  • 에이전트 준비: 다양한 입력을 처리하고 에이전트 워크플로에 대해 준비된 표준 형식으로 출력을 제공합니다. 출력을 사용하면 애플리케이션에서 사용자 의도를 이해할 수 있으며, 스키마에서 지원하는 strongly-typed 데이터를 사용하여 코드에 대한 준비된 형식으로 데이터를 더 쉽게 가져올 수 있습니다.

문서 분석기 기능

문서 추출 흐름을 보여 주는 스크린샷

콘텐츠 추출

콘텐츠 추출은 Content Understanding 문서 분석 기능의 기초를 형성합니다. 이 프로세스는 구조화되지 않은 문서를 컴퓨터에서 읽을 수 있는 구조화된 데이터로 변환합니다. 콘텐츠 추출은 고급 레이아웃 분석을 통해 문서의 구조를 유지하면서 인쇄 및 필기 텍스트를 정확하게 캡처합니다.

  • 콘텐츠 분석
    • 텍스트: 수백 개의 언어에서 기계 인쇄 및 필기 텍스트를 포함하여 다국어 콘텐츠를 처리합니다.
    • 선택 표시: 확인란, 단추 및 유사한 표식과 같은 선택 표시기를 식별하고 추출합니다.
    • 바코드 감지: 12가지 이상의 선형 및 2차원 바코드에서 정보를 검색하고 디코딩합니다.
    • 수학 수식: LaTeX 형식으로 복잡한 수학 식을 캡처하고 유지합니다.
    • 이미지 요소: 관련 캡션 및 주석과 함께 이미지, 그림, 다이어그램 및 차트를 찾아 추출합니다.
    • 하이퍼링크 요소: 문서에 포함된 하이퍼링크를 검색합니다.
    • 주석 요소: 취소선, 밑줄, 강조 표시 등의 주석과 콘텐츠를 연결합니다.
    • 그림 요소: 그림 요소를 감지하고 구조화된 출력으로 추출합니다.
  • 구조 분석
    • 단락: 문서 컨텍스트 및 역할에 따라 텍스트 세그먼트를 검색하고 분류합니다.
    • 테이블 형식 데이터: 스패닝 셀 및 다중 페이지 레이아웃이 있는 복합 형식을 포함하여 표 구조를 인식하고 추출합니다.
    • 계층적 섹션: 섹션 헤더 및 중첩된 콘텐츠 관계를 통해 콘텐츠 조직을 매핑합니다.
  • RAG(검색 보강 생성)
    • RAG 솔루션: 콘텐츠 추출은 원시 멀티모달 데이터를 검색에 최적화된 구조화된 검색 가능한 형식으로 변환하여 효과적인 RAG 시스템의 기초를 형성합니다. RAG 솔루션을 빌드하는 방법에 대한 자세한 내용은 검색 증강 생성을 참조하세요.

필드 추출

필드 추출을 사용하면 요구 사항에 맞게 사용자 지정된 다양한 문서 및 양식에서 구조화된 데이터를 추출, 분류 및 생성할 수 있습니다. 구조화되지 않은 콘텐츠를 조직적이고 실행 가능한 정보로 변환하는 프로세스는 데이터 관리를 간소화하고 검색 가능성을 개선하며 자동화된 워크플로를 지원합니다.

예를 들어 청구서에서 고객 세부 정보, 청구 주소 및 항목별 요금을 원활하게 추출할 수 있습니다. 또한 법적 계약에서 계약 당사자, 갱신 날짜 및 지불 조건을 식별할 수 있습니다. 효율성을 최대화하려면 청구서에 맞게 조정된 템플릿과 같이 미리 빌드된 분석기 템플릿을 사용할 수 있습니다. 더 많은 샘플 문서의 레이블 지정을 통해 정밀도를 향상시키기 위해 맞춤형 분석기를 처음부터 디자인할 수도 있습니다.

신뢰도 및 기초 설정 API는 선택적인 기능입니다. 필드 추출에 대한 신뢰도 및 접지를 활성화하려면, 분석기 구성에서 estimateFieldSourceAndConfidence = true를 설정하거나 특정 필드에 대해 estimateSourceAndConfidence = true를 설정하세요.

현장 추출 방법

Content Understanding은 문서 콘텐츠를 정밀하고 맞춤화된 처리할 수 있도록 필드 추출을 위한 다양한 방법을 제공합니다.

  • 추출: 정확하고 집중적인 정보 캡처를 위해 영수증 또는 송장의 품목에서 트랜잭션 날짜와 같은 특정 데이터를 추출합니다.
  • 분류: 고객 통화 내용의 감정 분류 또는 호텔 영수증 항목 분류와 같이 문서 콘텐츠를 미리 정의된 범주로 분류합니다.
  • 생성: 문서 요약 및 장 개요를 포함하여 문서에서 새로운 인사이트 또는 요약을 생성하여 콘텐츠 접근성 및 이해도를 향상시킵니다.

입력 요구 사항

지원되는 입력 문서 형식에 대한 자세한 내용은 서비스 할당량 및 제한을 참조하세요.

지원되는 언어 및 지역

지원되는 언어 및 지역 목록은 언어 및 지역 지원을 참조하세요.

데이터, 개인 정보 및 보안

Content Understanding을 사용하는 개발자는 고객 데이터에 대한 Microsoft 정책을 검토해야 합니다. 자세한 내용은 데이터, 개인 정보 및 보안을 참조하세요.