다음을 통해 공유


"콘텐츠 이해 분류/세분화"

Content Understanding을 사용하면 고객이 분석기 작업 요청의 일부로 분류 및 분할을 구현할 수 있습니다. 단일 API 호출의 일부로 콘텐츠 분류 및 콘텐츠 추출을 수행할 수 있습니다.

이제 글로벌 개념 analyzer 에는 애플리케이션 내에서 처리하는 입력 데이터를 분류하고 분할하는 개념 contentCategoriesenableSegment 이 포함됩니다. 이 분석기 기능은 입력 파일의 분류를 전체적으로 수행할 수 있습니다. 입력 파일 내에서 여러 문서 또는 단일 문서의 여러 인스턴스를 식별할 수도 있습니다.

GA 버전부터 문서 분류 및 비디오 구분 디자인이 통합되어 형식에 관계없이 입력 데이터를 일관된 방법으로 처리할 수 있습니다. 설명서에서 "Content Understanding 분류"는 입력 데이터(contentCategoriesenableSegment)를 분류하고 분할하는 데 필요한 분석 작업을 의미합니다.

비즈니스 사용 사례

Content Understanding 분류를 사용하면 다양한 형식 및 템플릿으로 복잡한 문서 및 비디오를 처리할 수 있습니다.

  • 청구서: 필요한 경우 여러 공급업체의 청구서를 분류하여 다양한 콘텐츠 이해 분석기를 사용하여 각 범주를 처리합니다.
  • 세금 문서: 여러 세금 문서를 1040 및 1099와 같은 다양한 유형의 세금 양식으로 분류합니다.
  • 계약: 길고 구조화되지 않은 계약을 분류하여 다양한 유형의 계약 및 해당 구체적인 법적 의미를 이해하기 위해 운영을 간소화합니다.
  • 스포츠 비디오: 자동으로 장면을 분할하여 비디오를 광고 및 실제 스포츠 콘텐츠와 같은 논리적 청크로 분할합니다.

분류/세분화 기능

Content Understanding은 단일 또는 다중 파일 문서를 분석하여 입력 파일을 정의된 범주로 분류할 수 있는지 여부를 식별할 수 있습니다. 지원되는 시나리오는 다음과 같습니다.

문서 시나리오:

  • 분류 전용: 입력 파일 전체를 분류합니다. 예를 들어 대출 신청 양식과 같은 하나의 문서 형식이 포함된 단일 파일입니다.
  • 분류 및 분석: 입력을 원하는 추출 분석기로 라우팅하여 입력 파일을 분류하고 분석합니다.
  • 분류 및 세그먼트: 여러 형식 또는 문서 인스턴스가 연결될 수 있는 단일 입력 파일을 분류하고 분할합니다. 예를 들어 대출 신청 양식, 급여 명세서 및 은행 명세서가 포함된 대출 신청 패키지입니다. 또 다른 예로는 단일 파일의 스캔된 청구서 컬렉션이 있습니다.
  • 분류, 세그먼트 및 분석: 세그먼트가 분류되면 각 세그먼트를 원하는 추출 분석기로 라우팅하여 추가 필드 추출을 수행합니다.
  • 계층적 분류자: 범주에 따라 선택적 추가 분석은 분류자 분석기일 수도 있습니다.

비디오 시나리오:

  • 세그먼트 전용: 필드에 description정의된 contentCategories 콘텐츠 특성에 따라 비디오를 세그먼트로 분할합니다. 예를 들어 스포츠 브로드캐스트를 게임 플레이, 광고 및 해설 세그먼트로 분할합니다.
  • 세그먼트 및 분석: 비디오를 세그먼트로 분할하고 필드 추출을 위해 각 세그먼트를 분석기에 라우팅합니다.

비고

문서 분류의 최소 단위는 단일 페이지입니다. 페이지 내 분류는 지원되지 않습니다.

분류 범주 만들기

Content Understanding 분류에는 학습 데이터 세트가 필요하지 않습니다. 분석 작업 내에서 최대 200개의 범주 이름과 설명을 정의할 수 있습니다. 기본적으로 전체 파일은 단일 콘텐츠 개체로 처리됩니다. 즉, 파일이 단일 범주에 연결됩니다.

GA 버전부터 콘텐츠가 정의된 범주와 일치하지 않도록 하기 위해 other 안에 contentCategories 범주를 포함해야 합니다. 범주가 other 포함되지 않은 경우 모든 파일은 정의된 범주 중 하나로 분류되어야 합니다. 정의한 각 범주 이름은 contentCategories 내에 있을 수 있으며, description를 포함하여 정의하는 범주에 대한 추가 정보를 제공할 수 있습니다.

입력 파일 분할

파일에 문서가 두 개 이상 있는 경우 분류자는 분리 기능을 사용하여 입력 파일에 포함된 다양한 문서 형식을 식별할 수 있습니다. 분류자 응답에는 파일 내에 포함된 식별된 각 문서 형식에 대한 페이지 범위가 포함됩니다. 이 응답에는 동일한 문서 형식의 여러 인스턴스가 포함될 수 있습니다.

이제 작업을 analyze 실행할 때 분할 동작을 세부적으로 제어할 수 있도록 하는 속성 enableSegment이 포함됩니다. 입력 문서의 특정 페이지만 분석하도록 페이지 번호를 지정할 수도 있습니다.

  • 전체 입력 파일을 분류를 위해 함께 결합된 여러 문서로 처리하려면 다음으로 enableSegment설정합니다true. 이렇게 하면 서비스는 입력 파일 내의 세그먼트에 대한 범주를 자동으로 반환합니다.
  • 전체 입력 파일을 단일 문서로 처리하려면 .로 설정합니다 enableSegmentfalse.

비고

비디오의 경우 구분만 지원됩니다. 단일 contentCategories를 정의하고 enableSegmenttrue으로 설정해야 합니다. 필드를 description 사용하여 비디오를 세그먼트로 분할하기 위한 조건을 지정합니다.

선택적 분석

전체 엔드투엔드 흐름의 경우 분류자 범주를 기존 사용자 지정 분석기 및 미리 빌드된 분석기와 연결할 수 있습니다. 연결된 분석기를 사용하여 범주로 분류된 각 콘텐츠 개체에 대해 서비스는 해당 분석기를 사용하여 콘텐츠 개체에 대한 분석을 자동으로 호출합니다.

예를 들어 이 연결을 사용하여 문서에 여러 형식의 양식이 포함된 PDF의 청구서만 식별하고 분석하는 분류자를 만들 수 있습니다. 분류된 문서나 페이지에서 필드 추출을 수행하고 라우팅하려면 미리 빌드된 분석기나 사용자 지정 분석기 중 하나로 analyzerId를 설정합니다.

범주화할 설정을 analyzerId 생략할 수도 있지만 분류된 파일 또는 세그먼트에 대한 콘텐츠 분석은 수행할 수 없습니다.

또한 최상위 계층에서 true로 지정하여 원래 콘텐츠 개체를 생략하고 분류된 세그먼트 또는 파일에서 수행된 다른 분석의 콘텐츠 개체만 반환하도록 할 omitContent 수 있습니다.

계층적 분류자

새로 디자인된 분석기 작업을 통해 계층적 분할 및 분류를 수행할 수 있습니다. 예를 들어 기본 분석기 작업 내에서 필요에 따라 추가 분류 또는 분할을 수행하는 사용자 지정 분석기를 사용하여 정의한 콘텐츠 범주를 설정할 analyzerID 수 있습니다. 계층적 분석기를 정의하면 청구서, 계약 및 영수증과 같은 다양한 유형의 문서를 분류하는 등의 시나리오를 수행할 수 있으며, 이러한 각 범주에 대한 analyzerID는 송장, 계약 및 영수증 내의 다양한 형식의 파일에 대해 추가 분류를 사용하도록 설정된 분석 작업이 될 수도 있습니다.

문서 입력은 5가지 수준의 중첩을 지원하며 비디오 입력은 2개를 지원합니다.

분류자 제한

지원되는 입력 문서 형식 및 분류자 제한에 대한 자세한 내용은 서비스 할당량 및 제한을 참조하세요.

모범 사례

분류 및 분리 품질을 개선하려면 모델이 일부 컨텍스트를 사용하여 범주를 이해할 수 있도록 적절한 범주 이름 및 설명을 사용합니다. 범주 이름 및 설명에 대한 자세한 내용은 모범 사례를 참조하세요.

주요 이점

  • 정확도 및 안정성: 정확한 문서 분류를 보장하여 오류를 줄이고 효율성을 높입니다.
  • 확장성: 비즈니스 요구에 맞게 문서 처리를 확장합니다.
  • 사용자 지정 가능: 특정 워크플로에 맞게 문서 분류자를 조정합니다.

지원되는 언어 및 지역

지원되는 언어 및 지역 목록은 언어 및 지역 지원을 참조하세요.

데이터 개인 정보 보호 및 보안

콘텐츠 이해를 사용하는 개발자는 고객 데이터에 대한 Microsoft 정책을 검토해야 합니다. 자세한 내용은 데이터, 보호 및 개인 정보를 참조하세요.