Tarefas e técnicas de visão computacional
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
O termo "pesquisa visual computacional" refere-se a uma variedade de tarefas e técnicas nas quais o software de IA processa a entrada visual; normalmente, de imagens, vídeos ou transmissões de câmera ao vivo. A pesquisa visual computacional é um campo bem estabelecido de IA e as técnicas usadas para extrair informações da entrada visual evoluíram significativamente ao longo dos anos.
Classificação de imagens
Uma das soluções de pesquisa visual computacional mais antigas é uma técnica chamada classificação de imagem, na qual um modelo treinado com um grande número de imagens é usado para prever um rótulo de texto com base no conteúdo de uma imagem.
Por exemplo, suponha que um supermercado queira implementar um sistema de check-out inteligente que identifique os produtos automaticamente. Por exemplo, o cliente pode colocar frutas ou legumes em uma escala no check-out, e um aplicativo de IA conectado a uma câmera poderia identificar automaticamente os tipos de produtos (maçã, laranja, banana e assim por diante) e cobrar a quantidade apropriada com base em seu peso. Para que essa solução funcione, um modelo precisaria ser treinado com um grande volume de imagens, cada uma rotulada com o nome correto. O resultado é um modelo que pode usar os recursos visuais de uma imagem para prever seu assunto principal.
Detecção de objetos
Suponha que o supermercado queira um sistema mais sofisticado, no qual o caixa possa escanear vários itens de uma vez e identificar cada um deles. Uma abordagem comum para esse tipo de problema é chamada de "detecção de objeto". Os modelos de detecção de objetos examinam várias regiões em uma imagem para localizar objetos individuais e seus locais. A previsão resultante do modelo inclui quais objetos foram detectados e as regiões específicas da imagem em que aparecem , indicadas pelas coordenadas da caixa delimitadora retangular.
Segmentação semântica
Outra maneira mais sofisticada de detectar objetos em uma imagem é chamada de "segmentação semântica". Nessa abordagem, um modelo é treinado para localizar objetos e classificar pixels individuais na imagem com base no objeto ao qual pertencem. O resultado desse processo é uma previsão muito mais precisa do local dos objetos na imagem.
Análise de imagem contextual
Os modelos de visão computacional multimodal mais recentes são treinados para encontrar relações contextuais entre objetos em imagens e o texto que os descreve. O resultado é uma capacidade de interpretar semanticamente uma imagem para determinar quais objetos e atividades ela ilustra; e gere descrições apropriadas ou sugira marcas relevantes.
Uma pessoa comendo uma maçã.