Tarefas e técnicas de visão computacional

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

O termo "pesquisa visual computacional" refere-se a uma variedade de tarefas e técnicas nas quais o software de IA processa a entrada visual; normalmente, de imagens, vídeos ou transmissões de câmera ao vivo. A pesquisa visual computacional é um campo bem estabelecido de IA e as técnicas usadas para extrair informações da entrada visual evoluíram significativamente ao longo dos anos.

Classificação de imagens

Uma das soluções de pesquisa visual computacional mais antigas é uma técnica chamada classificação de imagem, na qual um modelo treinado com um grande número de imagens é usado para prever um rótulo de texto com base no conteúdo de uma imagem.

Por exemplo, suponha que um supermercado queira implementar um sistema de check-out inteligente que identifique os produtos automaticamente. Por exemplo, o cliente pode colocar frutas ou legumes em uma escala no check-out, e um aplicativo de IA conectado a uma câmera poderia identificar automaticamente os tipos de produtos (maçã, laranja, banana e assim por diante) e cobrar a quantidade apropriada com base em seu peso. Para que essa solução funcione, um modelo precisaria ser treinado com um grande volume de imagens, cada uma rotulada com o nome correto. O resultado é um modelo que pode usar os recursos visuais de uma imagem para prever seu assunto principal.

Fotografias de laranja, maçã e banana.

Detecção de objetos

Suponha que o supermercado queira um sistema mais sofisticado, no qual o caixa possa escanear vários itens de uma vez e identificar cada um deles. Uma abordagem comum para esse tipo de problema é chamada de "detecção de objeto". Os modelos de detecção de objetos examinam várias regiões em uma imagem para localizar objetos individuais e seus locais. A previsão resultante do modelo inclui quais objetos foram detectados e as regiões específicas da imagem em que aparecem , indicadas pelas coordenadas da caixa delimitadora retangular.

Fotografia de laranja, maçã e banana com caixas delimitadoras.

Segmentação semântica

Outra maneira mais sofisticada de detectar objetos em uma imagem é chamada de "segmentação semântica". Nessa abordagem, um modelo é treinado para localizar objetos e classificar pixels individuais na imagem com base no objeto ao qual pertencem. O resultado desse processo é uma previsão muito mais precisa do local dos objetos na imagem.

Fotografia de laranja, maçã e banana com máscaras sobrepostas.

Análise de imagem contextual

Os modelos de visão computacional multimodal mais recentes são treinados para encontrar relações contextuais entre objetos em imagens e o texto que os descreve. O resultado é uma capacidade de interpretar semanticamente uma imagem para determinar quais objetos e atividades ela ilustra; e gere descrições apropriadas ou sugira marcas relevantes.

Foto de uma pessoa comendo uma maçã.

Uma pessoa comendo uma maçã.