Geração de imagem
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
A mesma arquitetura de modelo multimodal que permite que a IA crie respostas de linguagem natural à entrada visual também pode ser usada para habilitá-la para criar imagens em resposta a prompts de linguagem natural. Ao identificar os recursos visuais associados à linguagem, um modelo de síntese de imagem pode pegar uma descrição de uma imagem ou vídeo desejado e gerá-la.
A maioria dos modelos modernos de geração de imagens usa uma técnica chamada difusão, na qual um prompt é usado para identificar um conjunto de recursos visuais relacionados que podem ser combinados para criar uma imagem. Em seguida, a imagem é criada iterativamente, começando com um conjunto aleatório de valores de pixel e removendo "ruído" para criar estrutura. Após cada iteração, o modelo avalia a imagem até agora para compará-la com o prompt, até que uma imagem final que ilustra a cena desejada seja produzida.
Por exemplo, o prompt "Um cão carregando uma vara na boca" pode resultar em um processo de difusão com as seguintes iterações:
Alguns modelos podem aplicar um processo semelhante à geração de vídeo. O processo de geração de vídeo usa a mesma técnica para identificar recursos visuais associados a tokens de linguagem, mas também leva em conta fatores como o comportamento físico de objetos no mundo real (como garantir que um cão ande com os pés no chão) e a progressão temporal (para que o vídeo retrata uma sequência lógica de atividade).