图像生成

已完成

注释

有关更多详细信息,请参阅 “文本和图像 ”选项卡!

使 AI 能够创建视觉输入的自然语言响应的同一多模式模型体系结构,还可用于创建图像以响应自然语言提示。 通过识别与语言关联的视觉特征,图像合成模型可以获取所需图像或视频的说明并生成它。

大多数新式图像生成模型使用一种称为 扩散的技术,其中提示用于标识一组可以组合创建图像的相关视觉特征。 然后以迭代方式创建图像,从随机的像素值集开始,并删除“干扰”以创建结构。 每次迭代后,模型都会评估图像,以将其与提示进行比较,直到生成描述所需场景的最终图像。

例如,提示“嘴里叼着棍子的狗”可能会导致扩散过程,并出现以下迭代:

一系列狗的图像示意图,其视觉结构愈加复杂。

某些模型可以应用类似的过程来生成视频。 视频生成过程使用相同的技术来识别与语言标记关联的视觉特征,但也考虑了现实世界中对象的物理行为等因素(如确保狗在地面上用脚行走)和时态进度(以便视频描绘了一个逻辑活动序列)。