Entender os recursos de Análise de Imagem da Visão do Azure

Concluído

Os recursos de análise de imagem do Azure Vision podem ser usados com ou sem personalização. Alguns dos recursos que não exigem personalização incluem:

  • Descrevendo uma imagem com legendas
  • Detectando objetos comuns em uma imagem
  • Marcando recursos visuais
  • Reconhecimento óptico de caracteres

Descrevendo uma imagem com legendas

A Visão do Azure tem a capacidade de analisar uma imagem, avaliar os objetos nela e gerar uma descrição legível por humanos da imagem. Por exemplo, considere a seguinte imagem:

Diagrama de uma pessoa andando de skate.

A Visão do Azure retorna a seguinte legenda para esta imagem:

Uma pessoa pulando em cima de um skate

Detectando objetos comuns em uma imagem

A Visão do Azure pode identificar milhares de objetos comuns em imagens. Por exemplo, quando usado para detectar objetos na imagem do skatista discutida anteriormente, a Visão do Azure retorna as seguintes previsões:

  • Skate (90,40%)
  • Pessoa (95,5%)

As previsões incluem uma pontuação de confiança que indica o quão confiante é o modelo de que o que ele descreve é o que realmente está na imagem.

Além dos rótulos de objeto detectados e suas probabilidades, a Visão do Azure retorna coordenadas de caixa delimitadora que indicam a parte superior, esquerda, largura e altura do objeto detectado. Você pode usar essas coordenadas para determinar onde na imagem cada objeto foi detectado, desta forma:

Diagrama de um skatista com caixas delimitadoras ao redor dos objetos detectados.

Marcando recursos visuais

A Visão do Azure pode sugerir marcas para uma imagem com base em seu conteúdo. Tags são associadas a imagens como metadados. As etiquetas resumem atributos da imagem. Você pode usar marcas para indexar uma imagem junto com um conjunto de termos-chave para uma solução de pesquisa.

Por exemplo, as etiquetas retornadas para a imagem do skatista (com pontuações de confiança associadas) incluem:

  • esporte (99,60%)
  • pessoa (99,56%)
  • calçado (98,05%)
  • patinação (96,27%)
  • esporte com prancha (95,58%)
  • equipamento de skate (94,43%)
  • roupas (94,02%)
  • parede (93,81%)
  • skateboarding (93,78%)
  • skatista (93,25%)
  • esportes individuais (92,80%)
  • acrobacias de rua (90,81%)
  • saldo (90,81%)
  • pular (89,87%)
  • equipamentos esportivos (88,61%)
  • esporte extremo (88,35%)
  • kickflip (88,18%)
  • manobra (87.27%)
  • skate (86,87%)
  • praticante de acrobacias (85,83%)
  • joelho (85,30%)
  • esportes (85,24%)
  • longboard (84,61%)
  • longboarding (84,45%)
  • andando (73.37%)
  • skate (67,27%)
  • ar (64,83%)
  • young (63.29%)
  • ao ar livre (61,39%)

Reconhecimento óptico de caracteres

O serviço de Visão do Azure pode usar recursos de OCR (reconhecimento óptico de caracteres) para detectar texto em imagens. Por exemplo, considere a seguinte imagem de um rótulo de nutrição em um produto em um supermercado:

Diagrama de um rótulo de nutrição.

O serviço do Azure Vision pode analisar essa imagem e extrair o seguinte texto:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Treinamento de modelos personalizados

Se os modelos internos fornecidos pelo Azure Vision não atenderem às suas necessidades, você poderá usar o serviço para treinar um modelo personalizado para classificação de imagem ou detecção de objetos. O Azure Vision cria modelos personalizados no modelo de base pré-treinado, o que significa que você pode treinar modelos sofisticados usando relativamente poucas imagens de treinamento.

Classificação de imagens

Um modelo de classificação de imagem é usado para prever a categoria ou classe de uma imagem. Por exemplo, você pode treinar um modelo para determinar qual tipo de fruta é mostrado em uma imagem, como esta:

Maçã Banana Laranja
Diagrama de uma maçã. Diagrama de uma banana. Diagrama de uma laranja.

Detecção de objetos

Os modelos de detecção de objetos detectam e classificam objetos em uma imagem, retornando coordenadas de caixa delimitadora para localizar cada objeto. Além dos recursos internos de detecção de objetos no Azure Vision, você pode treinar um modelo de detecção de objetos personalizado com suas próprias imagens. Por exemplo, você pode usar fotografias de frutas para treinar um modelo que detecta várias frutas em uma imagem, como esta:

Diagrama de várias frutas detectadas em uma imagem.

Observação

Os detalhes de como usar a Visão do Azure para treinar um modelo personalizado estão além do escopo deste módulo. Você pode encontrar informações sobre o treinamento de modelo personalizado na documentação da Visão do Azure.

Em seguida, vamos examinar as funcionalidades específicas do serviço de Detecção Facial do Azure Vision.