인덱싱 프로세스 이해
인덱싱 프로세스는 인덱싱된 각 엔터티에 대한 문서를 만들어 작동합니다. 인덱싱하는 동안 보강 파이프라인 은 데이터 원본의 메타데이터와 인지 기술에 의해 추출된 보강 필드를 결합하는 문서를 반복적으로 빌드합니다. 인덱싱된 각 문서는 처음에 원본 데이터에서 직접 추출된 필드에 매핑된 인덱스 필드가 있는 문서 로 구성된 JSON 구조로 생각할 수 있습니다.
- 문서
- metadata_storage_name
- metadata_author
- 콘텐츠
데이터 원본의 문서에 이미지가 포함된 경우 다음과 같이 이미지 데이터를 추출하고 각 이미지를 normalized_images 컬렉션에 배치하도록 인덱서를 구성할 수 있습니다.
- 문서
- metadata_storage_name
- metadata_author
- 콘텐츠
- normalized_images
- image0
- image1
이러한 방식으로 이미지 데이터를 정규화하면 이미지 수집을 이미지 데이터에서 정보를 추출하는 기술에 대한 입력으로 사용할 수 있습니다.
각 기술은 문서에 필드를 추가하므로 예를 들어 문서가 작성된 언어 를 감지하는 기술은 다음과 같이 해당 출력을 언어 필드에 저장할 수 있습니다.
- 문서
- metadata_storage_name
- metadata_author
- 콘텐츠
- normalized_images
- image0
- image1
- 언어
문서는 계층적으로 구조화되며, 기술은 계층 내의 특정 컨텍스트 에 적용되므로 문서의 특정 수준에서 각 항목에 대한 기술을 실행할 수 있습니다. 예를 들어 정규화된 이미지 컬렉션의 각 이미지에 대해 OCR(광학 문자 인식) 기술을 실행하여 포함된 텍스트를 추출할 수 있습니다.
- 문서
- metadata_storage_name
- metadata_author
- 콘텐츠
- normalized_images
- image0
- 문자 메시지
- image1
- 문자 메시지
- image0
- 언어
각 기술의 출력 필드는 파이프라인의 뒷부분에 있는 다른 기술에 대한 입력으로 사용할 수 있으며, 그러면 해당 출력이 문서 구조에 저장됩니다. 예를 들어 병합 기술을 사용하여 원본 텍스트 콘텐츠를 각 이미지에서 추출한 텍스트와 결합하여 이미지 텍스트를 포함하여 문서의 모든 텍스트가 포함된 새 merged_content 필드를 만들 수 있습니다.
- 문서
- metadata_storage_name
- metadata_author
- 콘텐츠
- normalized_images
- image0
- 문자 메시지
- image1
- 문자 메시지
- image0
- 언어
- 병합된_콘텐츠
파이프라인 끝에 있는 최종 문서 구조의 필드는 다음 두 가지 방법 중 하나로 인덱서에 의해 인덱스 필드에 매핑됩니다.
- 원본 데이터에서 직접 추출된 필드는 모두 인덱스 필드에 매핑됩니다. 이러한 매핑은 암시적 일 수 있습니다(필드는 인덱스의 이름이 같은 필드에 자동으로 매핑됨) 또는 명시적 (매핑은 원본 필드를 인덱스 필드와 일치하도록 정의되며, 종종 필드 이름을 더 유용한 것으로 바꾸거나 매핑될 때 데이터 값에 함수를 적용하기 위해 정의됨).
- 기술 세트 내 기술의 출력 필드는 출력의 계층적 위치에서 대상 필드인 인덱스로 명시적으로 매핑됩니다.