Afbeeldingsgeneratie
Opmerking
Zie het tabblad Tekst en afbeeldingen voor meer informatie.
Dezelfde multimodale modelarchitectuur waarmee AI reacties op visuele invoer in natuurlijke taal kan maken, kan ook worden gebruikt om afbeeldingen te maken als reactie op prompts in natuurlijke taal. Door de visuele functies te identificeren die zijn gekoppeld aan de taal, kan een afbeeldingssynthesemodel een beschrijving van een gewenste afbeelding of video nemen en genereren.
De meeste moderne modellen voor het genereren van afbeeldingen gebruiken een techniek genaamd diffusie, waarin een prompt wordt gebruikt om een set gerelateerde visuele kenmerken te identificeren die kunnen worden gecombineerd om een afbeelding te maken. De afbeelding wordt vervolgens iteratief gemaakt, te beginnen met een willekeurige set pixelwaarden en het verwijderen van 'ruis' om structuur te creëren. Na elke iteratie evalueert het model de afbeelding tot nu toe om deze te vergelijken met de prompt, totdat een definitieve afbeelding van de gewenste scène wordt geproduceerd.
De prompt 'Een hond die een stok in zijn mond draagt' kan bijvoorbeeld leiden tot een diffusieproces met de volgende iteraties:
Sommige modellen kunnen een vergelijkbaar proces toepassen op het genereren van video. Het proces voor het genereren van video's gebruikt dezelfde techniek om visuele kenmerken te identificeren die zijn gekoppeld aan taaltokens, maar houdt ook rekening met factoren zoals het fysieke gedrag van objecten in de echte wereld (zoals ervoor zorgen dat een hond met zijn voeten op de grond loopt) en de tijdelijke voortgang (zodat de video een logische reeks activiteiten weergeeft).