Visão computacional

3 minutos

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

A pesquisa visual computacional é a área de inteligência artificial que lida com a análise da entrada visual; como fotografias, vídeos e feeds de câmera ao vivo. A visão computacional é realizada usando grandes quantidades de imagens para treinar um modelo.

Diagrama de um modelo de visão computacional sendo treinado com um grande volume de imagens.

Há vários tipos de modelo de visão computacional.

A classificação de imagem é uma forma de visão computacional na qual um modelo é treinado com imagens rotuladas com o assunto principal da imagem (em outras palavras, do que é uma imagem) para que possa analisar imagens sem rótulo e prever o rótulo mais apropriado – identificando o assunto da imagem.
A detecção de objetos é uma forma de pesquisa visual computacional na qual o modelo é treinado para identificar a localização de objetos específicos em uma imagem.
A segmentação semântica é uma forma avançada de detecção de objetos em que, em vez de indicar a localização de um objeto desenhando uma caixa ao seu redor, o modelo pode identificar os pixels individuais na imagem que pertencem a um objeto específico.
Modelos multi modais combinam recursos visuais e descrições de texto associadas, permitindo que gerem descrições abrangentes de imagens.

Cenários de visão computacional

Os usos comuns da visão computacional incluem:

Agentes de IA que podem interpretar a entrada visual.
Legenda automática ou geração de etiquetas para fotografias.
Pesquisa visual.
Monitoramento dos níveis de estoque ou identificação de itens para checkout em cenários de varejo.
Monitoramento de vídeo de segurança.
Autenticação por meio do reconhecimento facial.
Robótica e veículos autônomos.

Comentários

Esta página foi útil?