Vision-transformatoren en multimodale modellen

Voltooid

Opmerking

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

CNN's zijn al vele jaren de kern van computer vision-oplossingen. Hoewel ze vaak worden gebruikt om problemen met afbeeldingsclassificatie op te lossen zoals eerder beschreven, vormen ze ook de basis voor complexere Computer Vision-modellen. Objectdetectiemodellen combineren bijvoorbeeld CNN-functieextractielagen met de identificatie van interessegebieden in afbeeldingen om meerdere klassen objecten in dezelfde afbeelding te vinden. Veel vooruitgang in computer vision in de loop van de decennia is gedreven door verbeteringen in CNN-modellen.

In een andere AI-discipline - natuurlijke taalverwerking (NLP), een ander type neurale netwerkarchitectuur, een transformator genaamd, heeft echter de ontwikkeling van geavanceerde modellen voor taal mogelijk gemaakt.

Semantische modellering voor taal - Transformers

Transformatoren werken door grote hoeveelheden gegevens te verwerken en taaltokens te coderen (die afzonderlijke woorden of woordgroepen vertegenwoordigen) als vectorgebaseerde insluitingen (matrices van numerieke waarden). Een techniek genaamd aandacht wordt gebruikt om inbeddingswaarden toe te wijzen die de verschillende aspecten weerspiegelen van hoe elk token wordt gebruikt in de context van andere tokens. U kunt de insluitingen beschouwen als vectoren in multidimensionale ruimte, waarin elke dimensie een linguïstisch kenmerk van een token insluit op basis van de context in de trainingstekst, waardoor semantische relaties tussen tokens worden gemaakt. Tokens die vaak worden gebruikt in vergelijkbare contexten definiëren vectoren die nauwkeuriger zijn uitgelijnd dan niet-gerelateerde woorden.

diagram van tokenvectoren in een 3D-ruimte.

Tokens die semantisch vergelijkbaar zijn, worden gecodeerd in vergelijkbare richtingen, waardoor een semantisch taalmodel wordt gemaakt waarmee u geavanceerde NLP-oplossingen kunt bouwen voor tekstanalyse, vertaling, taalgeneratie en andere taken.

Opmerking

In werkelijkheid maken encoders in transformatornetwerken vectoren met veel meer dimensies, waarbij complexe semantische relaties tussen tokens worden gedefinieerd op basis van lineaire algebraïsche berekeningen. De betrokken wiskunde is complex, net als de architectuur van een transformatormodel. Ons doel is om alleen een conceptueel inzicht te geven in hoe codering een model maakt dat relaties tussen entiteiten inkapselt.

Semantisch model voor afbeeldingen - Vision-transformatoren

Het succes van transformatoren als een manier om taalmodellen te bouwen, heeft AI-onderzoekers ertoe geleid om na te gaan of dezelfde benadering effectief is voor afbeeldingsgegevens. Het resultaat is de ontwikkeling van ViT-modellen ( Vision Transformer ), waarin een model wordt getraind met behulp van een groot aantal afbeeldingen. In plaats van op tekst gebaseerde tokens te coderen, extraheert de transformator patches van pixelwaarden uit de afbeelding en genereert een lineaire vector van de pixelwaarden.

Diagram van een foto met patches die zijn toegewezen aan vectoren.

Dezelfde aandachtstechniek die wordt gebruikt in taalmodellen om contextuele relaties tussen tokens in te sluiten, wordt gebruikt om contextuele relaties tussen de patches te bepalen. Het belangrijkste verschil is dat in plaats van taalkundige kenmerken te coderen in de insluitvectors, de ingesloten waarden zijn gebaseerd op visuele kenmerken, zoals kleur, vorm, contrast, textuur, enzovoort. Het resultaat is een set insluitvectors waarmee een multidimensionale 'kaart' van visuele functies wordt gemaakt op basis van hoe ze vaak worden gezien in de trainingsafbeeldingen.

Diagram van visuele insluitingen.

Net als bij taalmodellen resulteren de insluitingen in visuele functies die worden gebruikt in vergelijkbare context, waarbij vergelijkbare vectorrichtingen worden toegewezen. De visuele kenmerken die in een hoed voorkomen, kunnen bijvoorbeeld contextueel zijn gerelateerd aan de visuele kenmerken die vaak voorkomen in een hoofd; omdat de twee dingen vaak samen worden gezien. Het model heeft geen inzicht in wat een "hoed" of een "hoofd" is; maar het kan een semantische relatie tussen de visuele kenmerken afleiden.

Alles bijeenbrengen - Multimodale modellen

Een taaltransformator maakt insluitingen die een taalkundige woordenlijst definiëren waarmee semantische relaties tussen woorden worden gecodeerd. Een visuele transformator maakt een visuele woordenlijst die hetzelfde doet voor visuele functies. Wanneer de trainingsgegevens afbeeldingen met bijbehorende tekstbeschrijvingen bevatten, kunnen we de encoders van beide transformatoren in een multimodale model combineren; en gebruik een techniek die aandacht voor meerdere modellen wordt genoemd om een uniforme ruimtelijke weergave van de insluitingen te definiëren, zoals deze.

Diagram van een multimodaal model waarin taal- en visie-insluitingen worden gecombineerd.

Met deze combinatie van taal- en visie-insluitingen kan het model semantische relaties tussen taal- en visuele functies onderscheiden. Met deze mogelijkheid kan het model complexe beschrijvingen voorspellen voor afbeeldingen die het nog niet eerder heeft gezien, door visuele kenmerken te herkennen en de gedeelde vectorruimte te doorzoeken op de bijbehorende taal.

Foto van een persoon in een park met een hoed en een rugzak.

Een persoon in een park met een hoed en een rugzak