Tarefas e técnicas de visão computacional
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
O termo "visão computacional" refere-se a uma série de tarefas e técnicas nas quais o software de IA processa a entrada visual; normalmente a partir de imagens, vídeos ou transmissões de câmeras ao vivo. A visão computacional é um campo bem estabelecido da IA, e as técnicas usadas para extrair informações da entrada visual evoluíram significativamente ao longo dos anos.
Classificação das imagens
Uma das mais antigas soluções de visão computacional é uma técnica chamada classificação de imagem, na qual um modelo que foi treinado com um grande número de imagens é usado para prever um rótulo de texto com base no conteúdo de uma imagem.
Por exemplo, suponha que um supermercado queira implementar um sistema de checkout inteligente que identifique os produtos automaticamente. Por exemplo, o cliente pode colocar frutas ou vegetais em uma balança no checkout, e um aplicativo de IA conectado a uma câmera pode identificar automaticamente os tipos de produtos (maçã, laranja, banana e assim por diante) e cobrar o valor apropriado com base em seu peso. Para que essa solução funcione, um modelo precisaria ser treinado com um grande volume de imagens, cada uma rotulada com o nome correto. O resultado é um modelo que pode usar as características visuais de uma imagem para prever o seu assunto principal.
Deteção de objetos
Suponhamos que o supermercado queira um sistema mais sofisticado, no qual o checkout possa escanear vários itens no checkout e identificar cada um deles. Uma abordagem comum para esse tipo de problema é chamada de "deteção de objetos". Os modelos de deteção de objetos examinam várias regiões em uma imagem para encontrar objetos individuais e seus locais. A previsão resultante do modelo inclui quais objetos foram detetados e as regiões específicas da imagem em que aparecem - indicadas pelas coordenadas da caixa delimitadora retangular.
Segmentação semântica
Outra maneira mais sofisticada de detetar objetos em uma imagem é chamada de "segmentação semântica". Nessa abordagem, um modelo é treinado para localizar objetos e classificar pixels individuais na imagem com base no objeto ao qual eles pertencem. O resultado deste processo é uma previsão muito mais precisa da localização dos objetos na imagem.
Análise de imagens contextuais
Os mais recentes modelos de visão computacional multimodal são treinados para encontrar relações contextuais entre objetos em imagens e o texto que os descreve. O resultado é uma capacidade de interpretar semanticamente uma imagem para determinar quais objetos e atividades ela representa; e gerar descrições apropriadas ou sugerir tags relevantes.
Uma pessoa comendo uma maçã.