Transformadores de visão e modelos multimodais
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
As CNNs estão no centro das soluções de visão computacional há muitos anos. Embora sejam comumente usados para resolver problemas de classificação de imagem, conforme descrito anteriormente, eles também são a base para modelos de pesquisa visual computacional mais complexos. Por exemplo, modelos de detecção de objetos combinam camadas de extração de características de CNN com a identificação de regiões de interesse em imagens para localizar múltiplas classes de objetos na mesma imagem. Muitos avanços na visão computacional ao longo das décadas foram impulsionados por melhorias nos modelos baseados na CNN.
No entanto, em outra disciplina de IA - NLP (processamento de linguagem natural), outro tipo de arquitetura de rede neural, chamada transformador, possibilitou o desenvolvimento de modelos especializados para a linguagem.
Modelagem semântica para idioma – Transformadores
Os transformers funcionam processando grandes volumes de dados, codificando tokens de linguagem (que representam palavras ou frases individuais) como incorporações baseadas em vetores (matrizes de valores numéricos). Uma técnica chamada atenção é usada para atribuir valores de inserção que refletem diferentes aspectos de como cada token é usado no contexto de outros tokens. Você pode pensar nas inserções como vetores no espaço multidimensional, no qual cada dimensão insere um atributo linguístico de um token com base em seu contexto no texto de treinamento, criando relações semânticas entre tokens. Tokens que normalmente são usados em contextos semelhantes definem vetores mais alinhados do que palavras não relacionadas.
Tokens semanticamente semelhantes são codificados em direções semelhantes, criando um modelo de linguagem semântica que possibilita a criação de soluções NLP sofisticadas para análise de texto, tradução, geração de idioma e outras tarefas.
Observação
Na realidade, codificadores em redes transformadores criam vetores com muito mais dimensões, definindo relações semânticas complexas entre tokens com base em cálculos algébricos lineares. A matemática envolvida é complexa, assim como a arquitetura de um modelo de transformador. Nosso objetivo aqui é apenas fornecer uma compreensão conceitual de como a codificação cria um modelo que encapsula as relações entre entidades.
Modelo semântico para imagens – Transformadores de visão
O sucesso dos transformadores como forma de criar modelos de linguagem levou os pesquisadores de IA a considerar se a mesma abordagem seria eficaz para dados de imagem. O resultado é o desenvolvimento de modelos vit ( transformador de visão ), em que um modelo é treinado usando um grande volume de imagens. Em vez de codificar tokens baseados em texto, o transformador extrai da imagem patches de valores de pixel e gera um vetor linear a partir desses valores.
A mesma técnica de atenção usada em modelos de linguagem para incorporar relações contextuais entre tokens é utilizada para determinar as relações contextuais entre os blocos. A principal diferença é que, em vez de codificar características linguísticas nos vetores de inserção, os valores inseridos são baseados em recursos visuais, como cor, forma, contraste, textura e assim por diante. O resultado é um conjunto de vetores de inserção que cria um "mapa" multidimensional de recursos visuais com base em como eles são comumente vistos nas imagens de treinamento.
Assim como acontece com os modelos de linguagem, as inserções resultam em recursos visuais que são usados em contexto semelhante recebendo direções de vetor semelhantes. Por exemplo, os recursos visuais comuns em um chapéu podem estar contextualmente relacionados aos recursos visuais que são comuns em uma cabeça; porque as duas coisas são muitas vezes vistas juntas. O modelo não entende o que é um "chapéu" ou uma "cabeça"; mas pode inferir uma relação semântica entre as características visuais.
Reunindo todos os elementos - modelos multimodais
Um transformador de linguagem cria inserções que definem um vocabulário linguístico que codifica relações semânticas entre palavras. Um transformador de visão cria um vocabulário visual que realiza a mesma função para características visuais. Quando os dados de treinamento incluem imagens com descrições de texto associadas, podemos combinar os codificadores de ambos os transformadores em um modelo multimodal e usamos uma técnica chamada atenção cruzada entre modelos para definir uma representação espacial unificada das incorporações, assim.
Essa combinação de inserções de linguagem e visão permite que o modelo discerna relações semânticas entre recursos visuais e de linguagem. Essa funcionalidade, por sua vez, permite que o modelo preveja descrições complexas para imagens que ele não viu anteriormente, reconhecendo os recursos visuais e pesquisando o espaço de vetor compartilhado em busca de linguagem associada.
Uma pessoa em um parque com um chapéu e uma mochila