Transformateurs de vision et modèles multimodaux
Remarque
Pour plus d’informations, consultez l’onglet Texte et images !
Les CNN ont été au cœur des solutions de vision par ordinateur depuis de nombreuses années. Bien qu’ils soient couramment utilisés pour résoudre les problèmes de classification d’images comme décrit précédemment, ils sont également la base des modèles de vision par ordinateur plus complexes. Par exemple, les modèles de détection d’objets combinent des couches d’extraction de caractéristiques CNN avec l’identification des régions d’intérêt dans les images pour localiser plusieurs classes d’objet dans la même image. De nombreuses avancées dans la vision par ordinateur au cours des décennies ont été pilotées par des améliorations apportées aux modèles basés sur CNN.
Toutefois, dans une autre discipline IA - traitement du langage naturel (NLP), un autre type d’architecture de réseau neuronal, appelé transformateur , a permis le développement de modèles sophistiqués pour le langage.
Modélisation sémantique pour le langage - Transformateurs
Les transformers fonctionnent en traitant de gros volumes de données et en encodant les jetons de langage (représentant des mots ou des expressions individuelles) sous forme d'incorporations vectorielles (tableaux de valeurs numériques). Une technique appelée attention est utilisée pour affecter des valeurs d’incorporation qui reflètent différents aspects de la façon dont chaque jeton est utilisé dans le contexte d’autres jetons. Vous pouvez considérer les incorporations en tant que vecteurs dans l’espace multidimensionnel, dans lequel chaque dimension incorpore un attribut linguistique d’un jeton en fonction de son contexte dans le texte d’apprentissage, créant des relations sémantiques entre des jetons. Les jetons couramment utilisés dans des contextes similaires définissent des vecteurs plus alignés que les mots non liés.
Les jetons qui sont sémantiquement similaires sont encodés dans des directions similaires, créant un modèle de langage sémantique qui permet de créer des solutions de NLP sophistiquées pour l’analyse de texte, la traduction, la génération de langue et d’autres tâches.
Remarque
En réalité, les encodeurs dans les réseaux transformateurs créent des vecteurs avec de nombreuses dimensions supplémentaires, définissant des relations sémantiques complexes entre des jetons basés sur des calculs algébriques linéaires. Les mathématiques impliquées sont complexes, comme l’architecture d’un modèle transformateur. Notre objectif ici est simplement de fournir une compréhension conceptuelle de la façon dont l’encodage crée un modèle qui encapsule les relations entre les entités.
Modèle sémantique pour les images - Transformateurs vision
Le succès des transformateurs comme moyen de créer des modèles de langage a conduit les chercheurs de l’IA à déterminer si la même approche serait efficace pour les données d’image. Le résultat est le développement de modèles de transformateur de vision (ViT), dans lesquels un modèle est entraîné à l’aide d’un grand volume d’images. Au lieu d’encoder des jetons textuels, le transformateur extrait les correctifs de valeurs de pixels de l’image et génère un vecteur linéaire à partir des valeurs de pixels.
La même technique d’attention, utilisée dans les modèles de langage pour incorporer des relations contextuelles entre des tokens, est également utilisée pour déterminer les relations contextuelles entre les fragments. La principale différence est que au lieu d’encoder des caractéristiques linguistiques dans les vecteurs d’incorporation, les valeurs incorporées sont basées sur des caractéristiques visuelles, telles que la couleur, la forme, le contraste, la texture, et ainsi de suite. Le résultat est un ensemble de vecteurs d’incorporation qui crée une « carte » multidimensionnelle des fonctionnalités visuelles en fonction de la façon dont elles sont couramment vues dans les images d’entraînement.
Comme pour les modèles de langage, les incorporations entraînent des fonctionnalités visuelles utilisées dans un contexte similaire qui reçoivent des directions vectorielles similaires. Par exemple, les caractéristiques visuelles communes dans un chapeau peuvent être liées contextuellement aux caractéristiques visuelles communes dans une tête ; parce que les deux choses sont souvent vues ensemble. Le modèle ne comprend pas ce qu’est un « chapeau » ou une « tête ». mais il peut déduire une relation sémantique entre les caractéristiques visuelles.
Intégration de tous les éléments - Modèles multimodaux
Un transformateur de langage crée des incorporations qui définissent un vocabulaire linguistique qui encode les relations sémantiques entre les mots. Un transformateur de vision crée un vocabulaire visuel qui fait de même pour les fonctionnalités visuelles. Lorsque les données d’apprentissage incluent des images avec des descriptions de texte associées, nous pouvons combiner les encodeurs de ces deux transformateurs dans un modèle multimodal ; et utiliser une technique appelée attention intermodèle pour définir une représentation spatiale unifiée des vectorisations, comme ceci.
Cette combinaison de langage et d’incorporations de vision permet au modèle de discerner les relations sémantiques entre le langage et les fonctionnalités visuelles. Cette fonctionnalité permet à son tour au modèle de prédire des descriptions complexes pour les images qu’il n’a pas vues précédemment, en reconnaissant les fonctionnalités visuelles et en recherchant l’espace vectoriel partagé pour le langage associé.
Une personne dans un parc avec un chapeau et un sac à dos