Compreenda as capacidades de Análise de Imagens do Azure Vision

Concluído

As capacidades de análise de imagens do Azure Vision podem ser usadas com ou sem personalização. Alguns dos recursos que não exigem personalização incluem:

  • Descrição de uma imagem com legendas
  • Detetando objetos comuns em uma imagem
  • Marcação de recursos visuais
  • Reconhecimento ótico de caracteres

Descrição de uma imagem com legendas

O Azure Vision tem a capacidade de analisar uma imagem, avaliar os objetos nela presentes e gerar uma descrição legível para humanos da imagem. Por exemplo, considere a seguinte imagem:

Diagrama de uma pessoa de skate.

O Azure Vision devolve a seguinte legenda para esta imagem:

Uma pessoa pulando em um skate

Detetando objetos comuns em uma imagem

O Azure Vision consegue identificar milhares de objetos comuns em imagens. Por exemplo, quando usado para detetar objetos na imagem do praticante de skate discutida anteriormente, o Azure Vision devolve as seguintes predições.

  • Skate (90.40%)
  • Pessoa (95,5%)

As previsões incluem uma pontuação de confiança que indica o quão confiante o modelo está de que o que ele descreve é o que realmente está na imagem.

Para além das etiquetas dos objetos detetados e das suas probabilidades, o Azure Vision devolve coordenadas de caixa delimitadora que indicam o topo, esquerdo, largura e altura do objeto detetado. Você pode usar essas coordenadas para determinar onde na imagem cada objeto foi detetado, desta forma:

Diagrama de um skatista com caixas delimitadoras à volta de objetos detetados.

Marcação de recursos visuais

O Azure Vision pode sugerir etiquetas para uma imagem com base no seu conteúdo. As tags são associadas a imagens como metadados. As tags resumem atributos da imagem. Você pode usar tags para indexar uma imagem junto com um conjunto de termos-chave para uma solução de pesquisa.

Por exemplo, as tags retornadas para a imagem do skatista (com pontuações de confiança associadas) incluem:

  • desporto (99.60%)
  • pessoa (99,56%)
  • calçado (98.05%)
  • patinação (96,27%)
  • Boardsport (95,58%)
  • equipamento de skate (94,43%)
  • vestuário (94.02%)
  • parede (93.81%)
  • skateboarding (93,78%)
  • skatista (93,25%)
  • desportos individuais (92,80%)
  • acrobacias de rua (90,81%)
  • balanço (90.81%)
  • salto (89,87%)
  • Equipamento desportivo (88,61%)
  • desporto radical (88,35%)
  • Kickflip (88,18%)
  • acrobacia (87.27%)
  • skateboard (86,87%)
  • Dublê (85,83%)
  • joelho (85.30%)
  • esportes (85,24%)
  • longboard (84,61%)
  • longboarding (84,45%)
  • Equitação (73.37%)
  • skate (67,27%)
  • Air (64.83%)
  • jovem (63,29%)
  • ao ar livre (61,39%)

Reconhecimento ótico de caracteres

O serviço Azure Vision pode utilizar capacidades de reconhecimento ótico de caracteres (OCR) para detetar texto nas imagens. Por exemplo, considere a seguinte imagem de um rótulo nutricional em um produto em um supermercado:

Diagrama de um rótulo nutricional.

O serviço Azure Vision pode analisar esta imagem e extrair o seguinte texto:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Treinamento de modelos personalizados

Se os modelos incorporados fornecidos pelo Azure Vision não corresponderem às suas necessidades, pode usar o serviço para treinar um modelo personalizado para classificação de imagens ou deteção de objetos. O Azure Vision constrói modelos personalizados sobre o modelo de fundação pré-treinado, o que significa que pode treinar modelos sofisticados usando relativamente poucas imagens de treino.

Classificação das imagens

Um modelo de classificação de imagem é usado para prever a categoria ou classe de uma imagem. Por exemplo, você pode treinar um modelo para determinar qual tipo de fruta é mostrado em uma imagem, assim:

Maçã Banana Laranja
Diagrama de uma maçã. Diagrama de uma banana. Diagrama de uma laranja.

Deteção de objetos

Os modelos de deteção de objetos detetam e classificam objetos em uma imagem, retornando coordenadas de caixa delimitadora para localizar cada objeto. Para além das capacidades integradas de deteção de objetos no Azure Vision, pode treinar um modelo personalizado de deteção de objetos com as suas próprias imagens. Por exemplo, você pode usar fotografias de frutas para treinar um modelo que deteta várias frutas em uma imagem, como esta:

Diagrama de múltiplos frutos detetados em uma imagem.

Observação

Os detalhes sobre como usar o Azure Vision para treinar um modelo personalizado estão fora do âmbito deste módulo. Pode encontrar informações sobre treino de modelos personalizados na documentação do Azure Vision.

De seguida, vejamos as capacidades específicas do serviço Face da Azure Vision.