图像生成

注释

有关更多详细信息，请参阅 “文本和图像 ”选项卡！

使 AI 能够创建视觉输入的自然语言响应的同一多模式模型体系结构，还可用于创建图像以响应自然语言提示。通过识别与语言关联的视觉特征，图像合成模型可以获取所需图像或视频的说明并生成它。

大多数新式图像生成模型使用一种称为扩散的技术，其中提示用于标识一组可以组合创建图像的相关视觉特征。然后以迭代方式创建图像，从随机的像素值集开始，并删除“干扰”以创建结构。每次迭代后，模型都会评估图像，以将其与提示进行比较，直到生成描述所需场景的最终图像。

例如，提示“嘴里叼着棍子的狗”可能会导致扩散过程，并出现以下迭代：

一系列狗的图像示意图，其视觉结构愈加复杂。

某些模型可以应用类似的过程来生成视频。视频生成过程使用相同的技术来识别与语言标记关联的视觉特征，但也考虑了现实世界中对象的物理行为等因素（如确保狗在地面上用脚行走）和时态进度（以便视频描绘了一个逻辑活动序列）。

反馈

此页面是否有帮助？