다음을 통해 공유


구조화되지 않은 콘텐츠에서 정보 추출 및 매핑

Azure AI 서비스
Azure Cosmos DB
Azure Container Apps
Azure AI Foundry (에이아이 파운드리)

솔루션 아이디어

이 문서는 솔루션 아이디어 설명입니다. 클라우드 설계자는 이 지침을 사용하여 이 아키텍처의 일반적인 구현을 위한 주요 구성 요소를 시각화할 수 있습니다. 이 문서를 시작점으로 사용하여 워크로드의 특정 요구 사항에 맞는 잘 설계된 솔루션을 디자인할 수 있습니다.

이 콘텐츠 처리 솔루션은 신뢰도 점수 매기기 및 사용자 유효성 검사를 통해 데이터를 추출하고 다중 모드 콘텐츠에 스키마를 적용합니다. 구조화되지 않은 콘텐츠에서 정보를 추출하고 구조화된 형식에 매핑하여 클레임, 청구서, 계약 및 기타 문서를 처리합니다.

이 아키텍처는 Microsoft Foundry, Azure Content Understanding, Foundry Models의 Azure OpenAI 및 기타 Azure 서비스를 사용하여 이벤트 기반 처리 파이프라인을 통해 많은 양의 구조화되지 않은 콘텐츠를 변환합니다. 텍스트, 이미지, 테이블 및 그래프를 처리하고 비즈니스 문서 워크플로에 대한 자동화된 품질 검사 및 사용자 검토 기능을 제공합니다.

건축학

일반적인 콘텐츠 처리 아키텍처를 보여 주는 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

워크플로

다음 워크플로는 이전 다이어그램에 해당합니다.

  1. 사용자는 웹 프런트 엔드 인터페이스를 통해 문서, 이미지, 계약 및 청구서와 같은 멀티모달 콘텐츠를 업로드합니다. 사용자는 특정 처리 요구 사항 및 대상 스키마를 사용하여 콘텐츠를 제출합니다.

  2. Azure Container Apps 웹 사이트는 콘텐츠 업로드 요청을 수신하고 Container Apps에서 호스트되는 처리 API를 호출합니다. 소프트웨어 팀은 두 구성 요소에 대한 사용자 지정 코드를 개발하여 이 시나리오에 맞게 조정합니다. API는 적절한 처리 파이프라인을 선택하고 콘텐츠 분석 워크플로를 시작합니다.

  3. Container Apps는 처리 워크플로를 관리하고 Content Understanding을 Azure OpenAI에 연결합니다.

  4. Content Understanding은 기계 학습 기반 OCR(광학 문자 인식)을 수행하고 이미지, 테이블 및 그래프를 비롯한 다양한 콘텐츠 형식에서 텍스트를 추출합니다.

  5. GPT Vision을 사용하는 Azure OpenAI는 추출된 콘텐츠를 처리하고, 사용자 지정 또는 업계 정의 스키마에 매핑하고, 신뢰도 점수 매기기를 포함하는 구조화된 JSON 출력을 생성합니다.

  6. Container Apps의 오케스트레이션 코드는 Azure Cosmos DB의 감사 추적 및 지속적인 개선을 위해 처리된 결과, 신뢰도 점수, 스키마 매핑 및 기록 처리 데이터를 저장합니다.

  7. Container Apps의 오케스트레이션 코드는 Azure Blob Storage를 사용하여 신뢰할 수 있는 데이터 지속성 및 검색을 위해 원본 문서, 중간 처리 아티팩트 및 최종 구조화된 출력을 저장합니다.

  8. Azure Queue Storage는 이 솔루션의 서비스 간에 이벤트 기반 처리 워크플로를 관리합니다. 이 관리를 통해 파이프라인 구성 요소 간에 안정적인 메시지 처리 및 처리 조정이 보장됩니다.

  9. 콘텐츠 프로세서 모니터 웹 사이트는 웹 인터페이스를 통해 사용자에게 처리된 결과를 표시합니다. 사용자는 구조화된 JSON 출력을 검토하고, 부정확성을 수정하고, 컨텍스트 또는 피드백에 대한 의견을 추가하고, 최종 유효성 검사 결과를 시스템에 저장할 수 있습니다.

  10. 콘텐츠 프로세서 모니터 웹 사이트는 처리 메트릭 및 사용자 피드백 데이터를 Power BI 대시보드에 직접 피드합니다. Azure Cosmos DB에 저장된 처리된 데이터 및 메타데이터는 다음 인사이트를 포함하여 콘텐츠 처리 파이프라인에 대한 분석을 제공합니다.

    • 핵심 성과 지표(KPI)
    • 성공률
    • 문서 유형 분포
    • 신뢰도 점수 추세
    • 사용자 수정 패턴
    • 콘텐츠 처리 파이프라인의 데이터 기반 최적화를 지원하는 기타 운영 메트릭

구성 요소

  • Container Apps 는 마이크로 서비스 및 컨테이너화된 애플리케이션을 실행하는 서버리스 컨테이너 플랫폼입니다. 이 아키텍처에서 Container Apps는 콘텐츠 분석을 오케스트레이션하고, AI 서비스 간을 조정하고, 추출 및 변환 워크플로를 관리하는 처리 파이프라인 API를 호스트합니다. 소프트웨어 엔지니어링 팀에서 사용자 지정 코드를 개발합니다.

  • Foundry 는 자연어 처리 및 생성을 위한 고급 언어 모델에 대한 액세스를 제공하는 관리형 AI 서비스입니다. 이 아키텍처에서 Foundry는 콘텐츠 처리 파이프라인에 사용되는 AI 모델을 배포하고 관리하기 위한 토대를 제공합니다. 또한 Content Understanding과 같은 연결된 AI 서비스에 대한 게이트웨이 역할을 합니다.

    • Azure OpenAI 는 GPT-4o 및 GPT-4o mini를 비롯한 언어 모델을 제공하는 Foundry의 구성 요소입니다. 이 아키텍처에서 Foundry는 모델을 서비스로 호스트합니다. 이러한 모델은 스키마 기반 데이터 변환을 수행하고, 추출된 콘텐츠를 구조화된 형식에 매핑하고, 추출 정확도에 대한 신뢰도 점수를 계산합니다.

    • Content Understanding 은 오디오, 비디오, 텍스트 및 이미지와 같은 다양한 종류의 미디어 콘텐츠를 분석하는 다중 모드 AI 서비스입니다. 콘텐츠를 구조화하고 검색 가능한 데이터로 변환합니다. 이 아키텍처에서 Content Understanding은 다중 모드 문서에서 고급 OCR 및 콘텐츠 추출을 수행합니다.

  • Azure Cosmos DB 는 짧은 대기 시간과 탄력적 확장성을 보장하는 전역적으로 분산된 다중 모델 데이터베이스 서비스입니다. 이 아키텍처에서 Azure Cosmos DB는 감사 내역 및 성능 최적화를 위해 처리된 결과, 신뢰도 점수, 유효성 검사 결과 및 기록 처리 데이터를 저장합니다.

  • Blob Storage 는 대량의 구조화되지 않은 데이터를 저장하기 위해 최적화된 개체 스토리지 솔루션입니다. 이 아키텍처에서 Blob Storage는 원본 문서, 중간 처리 아티팩트 및 최종 구조화된 출력을 유지 관리합니다. 내구성이 뛰어나고 전역적으로 사용 가능한 스토리지를 제공합니다.

  • Azure Container Registry 는 컨테이너 이미지를 저장하고 관리하는 관리되는 Docker 레지스트리 서비스입니다. 이 아키텍처에서 Container Registry는 처리 파이프라인 구성 요소에 대한 버전이 지정된 컨테이너 이미지를 관리합니다. 이 시스템은 일관된 배포 및 롤백 기능을 보장합니다.

  • Power BI 는 비즈니스 인사이트를 만들고, 공유하고, 사용할 수 있도록 함께 작동하는 소프트웨어 서비스, 앱 및 커넥터의 컬렉션입니다. 이 아키텍처에서 Power BI는 Azure Cosmos DB에 연결하고 모니터링 웹 애플리케이션에서 실시간 처리 메트릭을 수신하여 문서 처리 성능, 사용자 피드백 패턴 및 운영 KPI에 대한 분석을 제공합니다.

대안

이 아키텍처에는 워크로드의 기능 및 비기능 요구 사항에 따라 다른 Azure 서비스 또는 접근 방식을 대체할 수 있는 여러 구성 요소가 포함되어 있습니다. 다음과 같은 대안과 장만을 고려하세요.

콘텐츠 추출 방법

현재 접근 방식: 이 솔루션은 스키마 매핑 및 변환을 위해 Azure OpenAI와 결합된 고급 OCR 및 콘텐츠 추출에 Content Understanding을 사용합니다. 이 방법은 복잡한 멀티모달 콘텐츠에 대해 높은 정확도를 제공하고 유연한 스키마 사용자 지정을 지원합니다.

대체 방법: 청구서, 영수증 및 양식과 같은 일반적인 문서 유형에 미리 빌드된 모델을 사용하여 문서 처리에 Azure Document Intelligence를 사용합니다. 이 방법은 표준 문서 형식에 대해 더 빠른 구현을 제공하지만 사용자 지정 스키마의 유연성은 낮습니다.

워크로드에 다음과 같은 특성이 있는 경우 이 대안을 고려하세요.

  • 주로 잘 정의된 형식이 있는 표준 문서 형식을 처리합니다.

  • 미리 빌드된 추출 모델을 사용하여 출시 시간을 단축해야 합니다.

  • 스키마 요구 사항은 표준 문서 인텔리전스 모델과 일치합니다.

  • 스키마 매핑에 대한 사용자 지정 개발 리소스가 제한되어 있습니다.

오케스트레이션 처리

현재 접근 방식: 이 솔루션은 Container Apps를 사용하여 콘텐츠 분석 파이프라인을 오케스트레이션하는 사용자 지정 처리 논리를 호스트합니다. 이 방법은 처리 워크플로, 오류 처리 및 사용자 지정 비즈니스 논리 통합을 최대한 제어할 수 있습니다.

대체 방법: AI 서비스에 대한 기본 제공 커넥터를 사용하여 워크플로 오케스트레이션에 Azure Logic Apps 또는 Azure Functions를 사용합니다. 이 방법은 시각적 워크플로 디자인 및 관리되는 서비스 이점을 제공하지만 처리 논리에 대한 제어는 줄어듭니다.

워크로드에 다음과 같은 특성이 있는 경우 이 대안을 고려하세요.

  • 사용자 지정 코드 개발보다 시각적 워크플로 디자인을 선호합니다.

  • 처리 워크플로는 비교적 간단하며 표준 조건부 논리를 사용합니다.

  • 인프라 관리 오버헤드를 최소화하려고 합니다.

  • 팀은 컨테이너화된 애플리케이션보다 낮은 코드 및 코드 없는 솔루션에 더 많은 전문 지식을 보유하고 있습니다.

시나리오 세부 정보

일부 조직은 구조화되지 않은 다중 모드 콘텐츠의 대량에서 매일 의미 있는 데이터를 추출합니다. 계약, 청구서, 클레임 및 규정 준수 보고서와 같은 문서의 기존 수동 처리는 시간이 오래 걸리고 오류가 발생하기 쉬울 수 있으며 비즈니스 성장에 따라 확장되지 않습니다. 따라서 조직은 일관되지 않은 데이터 품질, 표준화 부족 및 추출된 정보를 다운스트림 비즈니스 프로세스에 통합하는 데 어려움을 겪습니다. 이 콘텐츠 처리 솔루션은 이러한 문제를 해결합니다.

이 솔루션은 고급 AI 서비스를 사용하여 다양한 문서 형식에서 콘텐츠를 자동으로 추출, 변환 및 유효성을 검사합니다. 이 시스템은 신뢰도 높은 추출에 대해 자동화된 처리를 가능하게 하는 신뢰도 점수 매기기를 제공하며, 사용자 검토를 위해 낮은 신뢰도 결과를 플래그 지정합니다. 이 방법은 다양한 콘텐츠 형식과 사용자 지정 비즈니스 스키마를 처리할 수 있는 유연성을 유지하면서 속도와 정확도를 모두 보장합니다.

잠재적인 사용 사례

다음과 같은 잠재적 사용 사례를 고려합니다.

금융 서비스 처리

  • 클레임 처리 자동화: 자동화된 유효성 검사 및 규정 준수 검사를 사용하여 보험 청구 문서, 사진 및 조정자 보고서에서 정책 세부 정보, 손상 평가 및 비용 추정치를 추출합니다.

  • 청구서 및 계약 처리: 청구서 및 계약에서 공급업체 정보, 품목, 사용 약관을 자동으로 추출하고 승인 워크플로에 대한 신뢰도 점수를 사용하여 엔터프라이즈 시스템에 매핑합니다.

  • 규제 문서 분석: 규정 제출, 규정 준수 보고서 및 감사 설명서를 처리하여 주요 메트릭을 추출하고 재무 규정 및 보고 요구 사항을 준수하도록 합니다.

의료 설명서

  • 임상 문서 처리: 전자 건강 기록 통합을 위한 의료 기록, 실험실 보고서 및 임상 노트에서 환자 정보, 진단, 치료 계획 및 약물 정보를 추출합니다.

  • 의료 청구 자동화: 의료 청구, 청구 명세서 및 보험 양식을 처리하여 자동화된 청구 워크플로에 대한 절차 코드, 환자 세부 정보 및 적용 범위 정보를 추출합니다.

  • 연구 데이터 추출: 임상 시험 문서, 연구 논문 및 환자 동의 양식을 분석하여 의료 연구 워크플로에 대한 연구 매개 변수, 결과 및 규정 준수 데이터를 추출합니다.

  • 계약 분석 및 추출: 계약 관리 및 규정 준수 모니터링을 위한 주요 조건, 의무, 날짜 및 당사자를 추출하기 위해 법적 계약, 계약 및 수정 사항을 처리합니다.

  • 법적 문서 검색: 법적 브리핑, 증착 및 사례 파일을 분석하여 소송 지원 및 사례 준비에 대한 관련 사실, 인용 및 증거를 추출합니다.

  • 규정 준수 설명서: 규정 제출, 감사 보고서 및 규정 준수 인증서를 처리하여 거버넌스 워크플로에 대한 요구 사항, 결과 및 수정 작업을 추출합니다.

제조 및 공급망

  • 품질 설명서 처리: 품질 관리 문서 및 인증서에서 검사 결과, 테스트 데이터 및 인증 세부 정보를 추출합니다. 규정 준수 추적 및 프로세스 개선을 위해 추출된 데이터를 사용합니다.

  • 공급업체 설명서: 공급업체 인증, 재료 사양 및 배송 문서를 처리하여 조달 워크플로에 대한 규정 준수 데이터 및 공급망 정보를 추출합니다.

  • 유지 관리 레코드 분석: 예측 유지 관리 및 자산 관리 시스템에 대한 기술 설명서에서 장비 데이터, 유지 관리 일정 및 복구 기록을 추출합니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일련의 기본 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Well-Architected Framework를 참조하세요.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 개선하는 방법에 중점을 둡니다. 자세한 내용은 비용 최적화를 위한 디자인 검토 검사 목록을 참조하세요.

이 시나리오를 실행하는 비용에 대한 자세한 내용은 Azure 가격 계산기에서 미리 구성된 예상을 참조하세요.

가격은 지역 및 사용량에 따라 다르므로 배포에 대한 정확한 비용을 예측할 수 없습니다. 이 인프라의 대부분의 Azure 리소스는 사용량 기반 가격 책정 계층을 따릅니다. 그러나 Container Registry에는 각 레지스트리에 대한 일일 고정 비용이 발생합니다.

이 시나리오를 배포하십시오

이 아키텍처의 구현을 배포하려면 GitHub 리포지토리의 단계를 수행합니다.

기여자

Microsoft는 이 문서를 유지 관리합니다. 다음 기여자는 이 문서를 작성했습니다.

대표 저자:

기타 기여자:

LinkedIn 비공개 프로필을 보려면, LinkedIn에 로그인하세요.

다음 단계