Azure Vision 이미지 분석 기능 이해

완료됨

Azure Vision의 이미지 분석 기능은 사용자 지정 여부에 관계없이 사용할 수 있습니다. 사용자 지정이 필요하지 않은 기능 중 일부는 다음과 같습니다.

  • 캡션이 있는 이미지 설명
  • 이미지에서 일반적인 개체 검색
  • 시각적 기능 태그 지정
  • 광학 인식

캡션이 있는 이미지 설명

Azure Vision에는 이미지를 분석하고, 이미지를 평가하고, 이미지에 대한 사람이 읽을 수 있는 설명을 생성하는 기능이 있습니다. 예를 들어 다음 이미지를 고려합니다.

스케이트보드에 있는 사람의 다이어그램.

Azure Vision은 이 이미지에 대해 다음 캡션을 반환합니다.

스케이트보드를 타고 점프하는 사람

이미지에서 일반적인 개체 검색

Azure Vision은 이미지에서 수천 개 공통 개체를 식별할 수 있습니다. 예를 들어 이전에 설명한 스케이트보더 이미지에서 개체를 검색하는 데 사용되는 경우 Azure Vision은 다음 예측을 반환합니다.

  • 스케이트보드(90.40%)
  • Person (95.5%)

예측에는 모델이 이미지에 실제로 무엇이 있는지를 설명하는 것이 얼마나 확실한지를 나타내는 신뢰도 점수 가 포함됩니다.

검색된 개체 레이블 및 해당 확률 외에도 Azure Vision은 검색된 개체의 위쪽, 왼쪽, 너비 및 높이를 나타내는 경계 상자 좌표를 반환합니다. 이러한 좌표를 사용하여 이미지에서 각 개체가 검색된 위치를 다음과 같이 확인할 수 있습니다.

검색된 개체 주위에 경계 상자가 있는 스케이트보더의 다이어그램.

시각적 기능 태그 지정

Azure Vision은 내용에 따라 이미지에 대한 태그 를 제안할 수 있습니다. 태그는 이미지와 메타데이터로 연결됩니다. 태그는 이미지의 특성을 요약합니다. 태그를 사용하여 검색 솔루션에 대한 키 용어 집합과 함께 이미지를 인덱싱할 수 있습니다.

예를 들어 스케이트보더 이미지에 대해 반환된 태그(연결된 신뢰도 점수 포함)는 다음과 같습니다.

  • 스포츠 (99.60%)
  • 사람 (99.56%)
  • 신발 (98.05%)
  • 스케이트 (96.27%)
  • boardsport (95.58%)
  • 스케이트 보드 장비 (94.43%)
  • 의류(94.02%)
  • 벽(93.81%)
  • 스케이트보드 (93.78%)
  • 스케이트보더(93.25%)
  • 개별 스포츠(92.80%)
  • 거리 묘기(90.81%)
  • 잔액(90.81%)
  • 점프하기 (89.87%)
  • 스포츠 장비 (88.61%)
  • 익스트림 스포츠 (88.35%)
  • kickflip (88.18%)
  • 스턴트(87.27%)
  • 스케이트보드(86.87%)
  • 스턴트 연기자 (85.83%)
  • 무릎(85.30%)
  • 스포츠 (85.24%)
  • 롱보드(84.61%)
  • 롱보드(84.45%)
  • 승차(73.37%)
  • 스케이트 (67.27%)
  • 공기(64.83%)
  • young (63.29%)
  • 야외 (61.39%)

광학 인식

Azure Vision 서비스는 OCR(광학 문자 인식) 기능을 사용하여 이미지에서 텍스트를 검색할 수 있습니다. 예를 들어 식료품점의 제품에 있는 영양 라벨의 다음 이미지를 고려해 보세요.

영양 라벨의 다이어그램.

Azure Vision 서비스는 이 이미지를 분석하고 다음 텍스트를 추출할 수 있습니다.

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

사용자 지정 모델 학습

Azure Vision에서 제공하는 기본 제공 모델이 요구 사항을 충족하지 않는 경우 서비스를 사용하여 이미지 분류 또는 개체 검색을 위한 사용자 지정 모델을 학습할 수 있습니다. Azure Vision은 미리 학습된 기본 모델을 기반으로 사용자 지정 모델을 빌드합니다. 즉, 비교적 적은 수의 학습 이미지를 사용하여 정교한 모델을 학습할 수 있습니다.

이미지 분류

이미지 분류 모델은 이미지의 범주 또는 클래스 를 예측하는 데 사용됩니다. 예를 들어 다음과 같이 이미지에 표시되는 과일 유형을 결정하는 모델을 학습시킬 수 있습니다.

Apple 바나나 오렌지
사과 다이어그램 바나나 다이어그램 주황색 다이어그램

객체 탐지

개체 검색 모델은 이미지에서 개체를 검색하고 분류하여 경계 상자 좌표를 반환하여 각 개체를 찾습니다. Azure Vision의 기본 제공 개체 검색 기능 외에도 사용자 고유의 이미지를 사용하여 사용자 지정 개체 검색 모델을 학습시킬 수 있습니다. 예를 들어 다음과 같이 과일 사진을 사용하여 이미지에서 여러 과일을 감지하는 모델을 학습시킬 수 있습니다.

이미지에서 검색된 여러 과일의 다이어그램.

비고

Azure Vision을 사용하여 사용자 지정 모델을 학습시키는 방법에 대한 세부 정보는 이 모듈의 범위를 벗어납니다. Azure Vision 설명서에서 사용자 지정 모델 학습에 대한 정보를 찾을 수 있습니다.

다음으로, Azure Vision의 Face 서비스와 관련된 기능을 살펴보겠습니다.