Geração de imagens
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
A mesma arquitetura de modelo multimodal que permite que a IA crie respostas de linguagem natural à entrada visual, também pode ser usada para permitir que ela crie imagens em resposta a solicitações de linguagem natural. Ao identificar as características visuais associadas à linguagem, um modelo de síntese de imagem pode pegar uma descrição de uma imagem ou vídeo desejado e gerá-lo.
A maioria dos modelos modernos de geração de imagens usa uma técnica chamada difusão, na qual um prompt é usado para identificar um conjunto de recursos visuais relacionados que podem ser combinados para criar uma imagem. A imagem é então criada iterativamente, começando com um conjunto aleatório de valores de pixel e removendo "ruído" para criar estrutura. Após cada iteração, o modelo avalia a imagem até agora para compará-la com o prompt, até que uma imagem final que retrate a cena desejada seja produzida.
Por exemplo, o prompt "Um cão carregando um bastão na boca" pode resultar em um processo de difusão com as seguintes iterações:
Alguns modelos podem aplicar um processo semelhante à geração de vídeo. O processo de geração de vídeo usa a mesma técnica para identificar características visuais associadas a tokens de linguagem, mas também leva em conta fatores como o comportamento físico de objetos no mundo real (como garantir que um cão ande com os pés no chão) e a progressão temporal (para que o vídeo retrate uma sequência lógica de atividade).