ビジョントランスフォーマーとマルチモーダルモデル

完了

詳細については、「 テキストと画像 」タブを参照してください。

CNN は、長年にわたってコンピューター ビジョン ソリューションの中核をなしてきました。 これらは、前に説明したように画像分類の問題を解決するために一般的に使用されますが、より複雑なコンピューター ビジョン モデルの基礎でもあります。 たとえば、 物体検出 モデルは、CNN 特徴抽出レイヤーと画像 内の関心領域の 識別を組み合わせて、同じ画像内の複数のクラスのオブジェクトを見つけます。 数十年にわたるコンピューター ビジョンの多くの進歩は、CNN ベースのモデルの改善によって推進されてきました。

しかし、別の AI 規範である 自然言語処理 (NLP) では、 トランスフォーマー と呼ばれる別の種類のニューラル ネットワーク アーキテクチャによって、言語の高度なモデルの開発が可能になりました。

言語のセマンティック モデリング - トランスフォーマー

トランスフォーマーは、膨大な量のデータを処理し、言語 トークン (個々の単語またはフレーズを表す) をベクターベースの 埋め込み (数値の配列) としてエンコードすることによって機能します。 アテンションと呼ばれる手法は、他のトークンのコンテキストで各トークンがどのように使用されるかのさまざまな側面を反映する埋め込み値を割り当てるために使用されます。 埋め込みを多次元空間のベクトルと考えることができます。各ディメンションは、トレーニング テキスト内のコンテキストに基づいてトークンの言語属性を埋め込み、トークン間のセマンティック リレーションシップを作成します。 同様のコンテキストで一般的に使用されるトークンは、関連のない単語よりも密接に配置されたベクトルを定義します。

3D 空間内のトークン ベクトルの図。

意味的に似たトークンは、同様の方向にエンコードされ、テキスト分析、翻訳、言語生成などのタスク用の高度な NLP ソリューションを構築できるセマンティック言語モデルが作成されます。

実際には、トランスフォーマー ネットワークのエンコーダーは、より多くの次元を持つベクトルを作成し、線形代数計算に基づいてトークン間の複雑なセマンティック 関係を定義します。 関係する数学は、トランスフォーマー モデルのアーキテクチャと同様に複雑です。 ここでの目標は、エンティティ間のリレーションシップをカプセル化するモデルをエンコードによって作成する方法の 概念的 な理解を提供することです。

画像のセマンティック モデル - ビジョン トランスフォーマー

言語モデルを構築する方法としてのトランスフォーマーの成功により、AI 研究者は、画像データに対して同じアプローチが有効かどうかを検討しました。 その結果、大量の画像を使用してモデルをトレーニングする ビジョン トランスフォーマー (ViT) モデルの開発が行われます。 トランスフォーマーは、テキストベースのトークンをエンコードする代わりに、画像からピクセル値の パッチ を抽出し、ピクセル値から線形ベクトルを生成します。

ベクトルにパッチが割り当てられた写真の図。

言語モデルでトークン間のコンテキストリレーションシップを埋め込むために使用されるのと同じ アテンション 手法を使用して、パッチ間のコンテキストリレーションシップを決定します。 主な違いは、埋め込みベクターに言語特性をエンコードする代わりに、埋め込み値は色、形状、コントラスト、テクスチャなどの視覚的特徴に基づいているということです。 その結果、一連の埋め込みベクターが作成され、トレーニング 画像で一般的に見られる方法に基づいて視覚的特徴の多次元 "マップ" が作成されます。

視覚埋め込みの図。

言語モデルと同様に、埋め込みによって、同様のコンテキストで使用される視覚的特徴が、同様のベクトル方向に割り当てられます。 たとえば、 帽子 に共通する視覚的特徴は、 の中で一般的な視覚的特徴にコンテキスト的に関連している可能性があります。2つのことがしばしば一緒に見られるからです。 モデルは「帽子」または「頭」 とは何かを理解していない。しかし、それは視覚的特性間のセマンティック関係を推測することができます。

すべてをまとめる - マルチモーダル モデル

言語トランスフォーマーは、単語間のセマンティックリレーションシップをエンコードする言語ボキャブラリを定義する埋め込みを作成します。 視覚トランスフォーマーは、視覚的特徴に対して同じ動作をする視覚的ボキャブラリを作成します。 トレーニング データに関連するテキストの説明を含む画像が含まれている場合は、これらの両方のトランスフォーマーのエンコーダーを マルチモーダル モデルで組み合わせることができます。次のように、 クロスモデル アテンション と呼ばれる手法を使用して、埋め込みの統一された空間表現を定義します。

言語と視覚の埋め込みを組み合わせたマルチモーダル モデルの図。

この言語埋め込みと視覚埋め込みの組み合わせにより、モデルは言語と視覚の特徴の間のセマンティック関係を識別できます。 この機能により、モデルでは、視覚的特徴を認識し、共有ベクター空間で関連する言語を検索することで、これまで見たことのなかった画像の複雑な説明を予測できます。

帽子とバックパックを持つ公園の人の写真。

帽子とバックパックを持つ公園の人