视觉转换器和多模式模型

已完成

注释

有关更多详细信息,请参阅 “文本和图像 ”选项卡!

CNN 多年来一直是计算机视觉解决方案的核心。 虽然它们通常用于解决前面所述的图像分类问题,但它们也是更复杂的计算机视觉模型的基础。 例如,对象检测 模型将 CNN 特征提取层与图像中感兴趣的 区域进行标识,以在同一图像中定位多个对象类。 几十年来,计算机视觉的许多进步是由基于CNN的模型的改进推动的。

然而,在另一个 AI 学科中-自然语言处理(NLP),另一种类型的神经网络体系结构,称为 转换器 使语言的复杂模型得以开发。

语言的语义建模 - 转换器

转换器的工作原理是处理大量数据,并将语言标记(表示单个单词或短语)编码为基于向量的嵌入(数值数组)。 一种称为 注意 的技术用于分配嵌入值,这些值反映了其他令牌上下文中每个令牌的使用方式的不同方面。 可以将嵌入视为多维空间中的向量,其中每个维度根据令牌在训练文本中的上下文表示该令牌的语言属性,从而在令牌之间建立起语义关系。 在相似语境中常用的标记所定义的向量比不相关字词的向量对齐得更紧密。

3D 空间中令牌向量的示意图。

语义上相似的标记按类似的方向进行编码,从而创建语义语言模型,以便为文本分析、翻译、语言生成和其他任务生成复杂的 NLP 解决方案。

注释

实际上,转换器网络中的编码器会创建具有更多维度的矢量,基于线性代数计算定义令牌之间的复杂语义关系。 所涉及的数学是复杂的,与转换器模型的体系结构一样。 在本文中,我们目标只是提供对编码如何创建封装实体之间关系的模型的概念性理解

图像的语义模型 - 视觉转换器

转换器的成功是构建语言模型的一种方式,导致 AI 研究人员考虑相同的方法是否对图像数据有效。 这导致了视觉转换器(ViT)模型的开发,其中模型是通过大量图像进行训练的。 转换器不是对基于文本的令牌进行编码,而是从图像中提取像素值的斑块,并从这些像素值生成线性向量。

分配给向量的修补程序的示意图。

与在语言模型中用于在标记之间嵌入上下文关系的注意力技术相同,用于确定修补程序之间的上下文关系。 主要区别在于,嵌入值不是将语言特征编码到嵌入矢量中,而是基于视觉特征,如颜色、形状、对比度、纹理等。 结果是一组嵌入向量,它根据在训练图像中常见的视觉特征出现方式,创建了一个多维的视觉特征“映射”。

视觉嵌入图。

与语言模型一样,嵌入会导致在类似的上下文中使用的视觉特征分配类似的向量方向。 例如, 帽子 中常见的视觉特征可能与 头部中常见的视觉特征有上下文相关;因为两件事经常一起出现。 模型不了解什么是“帽子”或“ 头”:但它可以推断视觉特征之间的语义关系。

将所有模型组合在一起 - 多模式模型

语言转换器创建嵌入,这些嵌入定义了编码单词之间语义关系的语言词汇表。 视觉变换器创建了一种视觉词汇,该词汇对视觉特征执行相同的作用。 当训练数据包含具有关联文本说明的图像时,我们可以在 多模式 模型中合并这两个转换器中的编码器;并使用称为 交叉模型注意 的技术来定义嵌入的统一空间表示形式,如下所示。

融合语言和视觉嵌入的多模态模型的图示。

这种语言和视觉嵌入的组合使模型能够识别语言和视觉特征之间的语义关系。 反过来,此功能使模型能够通过识别视觉特征并在共享矢量空间中寻找相关语言,从而预测新图像的复杂描述,这些图像都是模型以前未曾见过的。

公园里一个人的照片,戴着帽子和背包。

公园里的人戴着帽子和背包