Transformadores de visão e modelos multimodais

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

As CNNs estão no centro das soluções de visão computacional há muitos anos. Embora sejam comumente usados para resolver problemas de classificação de imagem, conforme descrito anteriormente, eles também são a base para modelos de visão computacional mais complexos. Por exemplo, os modelos de deteção de objetos combinam camadas de extração de recursos CNN com a identificação de regiões de interesse em imagens para localizar várias classes de objeto na mesma imagem. Muitos avanços na visão computacional ao longo das décadas foram impulsionados por melhorias nos modelos baseados na CNN.

No entanto, em outra disciplina de IA - processamento de linguagem natural (NLP), outro tipo de arquitetura de rede neural, chamado de transformador , permitiu o desenvolvimento de modelos sofisticados para a linguagem.

Modelagem semântica para linguagem - Transformers

Os transformadores funcionam processando grandes volumes de dados e codificando tokens de linguagem (representando palavras ou frases individuais) como incorporações baseadas em vetores (matrizes de valores numéricos). Uma técnica chamada de atenção é usada para atribuir valores de incorporação que refletem diferentes aspetos de como cada token é usado no contexto de outros tokens. Você pode pensar nas incorporações como vetores no espaço multidimensional, no qual cada dimensão incorpora um atributo linguístico de um token com base em seu contexto no texto de treinamento, criando relações semânticas entre tokens. Os tokens que são comumente usados em contextos semelhantes definem vetores que estão mais alinhados do que palavras não relacionadas.

Diagrama de vetores de token em um espaço 3D.

Tokens que são semanticamente semelhantes são codificados em direções semelhantes, criando um modelo de linguagem semântica que torna possível construir soluções sofisticadas de PNL para análise de texto, tradução, geração de linguagem e outras tarefas.

Observação

Na realidade, os codificadores em redes de transformadores criam vetores com muito mais dimensões, definindo relações semânticas complexas entre tokens com base em cálculos algébricos lineares. A matemática envolvida é complexa, assim como a arquitetura de um modelo de transformador. Nosso objetivo aqui é apenas fornecer uma compreensão conceitual de como a codificação cria um modelo que encapsula relações entre entidades.

Modelo semântico para imagens - Transformadores de visão

O sucesso dos transformadores como forma de construir modelos de linguagem levou os pesquisadores de IA a considerar se a mesma abordagem seria eficaz para dados de imagem. O resultado é o desenvolvimento de modelos de transformadores de visão (ViT), nos quais um modelo é treinado usando um grande volume de imagens. Em vez de codificar tokens baseados em texto, o transformador extrai patches de valores de pixel da imagem e gera um vetor linear a partir dos valores de pixel.

Diagrama de uma foto com patches atribuídos a vetores.

A mesma técnica de atenção usada em modelos de linguagem para incorporar relações contextuais entre tokens é usada para determinar relações contextuais entre os patches. A principal diferença é que, em vez de codificar características linguísticas nos vetores de incorporação, os valores incorporados são baseados em recursos visuais, como cor, forma, contraste, textura e assim por diante. O resultado é um conjunto de vetores de incorporação que cria um "mapa" multidimensional de recursos visuais com base em como eles são comumente vistos nas imagens de treinamento.

Diagrama de incorporações de visão.

Tal como acontece com os modelos de linguagem, as incorporações resultam em recursos visuais que são usados em contexto semelhante sendo atribuídos direções vetoriais semelhantes. Por exemplo, as características visuais comuns em um chapéu podem estar contextualmente relacionadas às características visuais que são comuns em uma cabeça; porque as duas coisas são muitas vezes vistas juntas. O modelo não entende o que é um "chapéu" ou uma "cabeça"; mas pode inferir uma relação semântica entre as características visuais.

Reunir tudo - Modelos multimodais

Um transformador de linguagem cria incorporações que definem um vocabulário linguístico que codifica relações semânticas entre palavras. Um transformador de visão cria um vocabulário visual que faz o mesmo para características visuais. Quando os dados de treinamento incluem imagens com descrições de texto associadas, podemos combinar os codificadores de ambos os transformadores em um modelo multimodal ; e usar uma técnica chamada atenção de modelo cruzado para definir uma representação espacial unificada das incorporações, como esta.

Diagrama de um modelo multimodal que combina incorporações de linguagem e visão.

Esta combinação de incorporação de linguagem e visão permite que o modelo discerna relações semânticas entre linguagem e características visuais. Esse recurso, por sua vez, permite que o modelo preveja descrições complexas para imagens que não viu anteriormente, reconhecendo recursos visuais e pesquisando o espaço vetorial compartilhado por linguagem associada.

Fotografia de uma pessoa num parque com um chapéu e uma mochila.

Uma pessoa em um parque com um chapéu e uma mochila