Bildgenerierung
Hinweis
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Die gleiche multimodale Modellarchitektur, die KI ermöglicht, natürliche Sprachantworten auf visuelle Eingaben zu erstellen, kann auch verwendet werden, um es zu ermöglichen, Bilder als Reaktion auf Aufforderungen in natürlicher Sprache zu erstellen. Durch die Identifizierung der visuellen Features, die mit der Sprache verknüpft sind, kann ein Bildsynthesemodell eine Beschreibung eines gewünschten Bilds oder Videos erstellen und generieren.
Die meisten modernen Modelle der Bildgenerierung verwenden eine Technik namens Diffusion, bei der eine Eingabeaufforderung verwendet wird, um eine Reihe verwandter visueller Features zu identifizieren, die kombiniert werden können, um ein Bild zu erstellen. Das Bild wird dann iterativ erstellt, beginnend mit einem zufälligen Satz von Pixelwerten und dem Entfernen von "Rauschen", um Struktur zu erstellen. Nach jeder Iteration wertet das Modell das Bild bisher aus, um es mit der Eingabeaufforderung zu vergleichen, bis ein endgültiges Bild, das die gewünschte Szene darstellt, erstellt wird.
Beispielsweise kann die Eingabeaufforderung "Ein Hund, der einen Stick im Mund trägt" zu einem Diffusionsprozess mit den folgenden Iterationen führen:
Einige Modelle können einen ähnlichen Prozess zum Generieren von Videos anwenden. Der Prozess der Videogenerierung verwendet dieselbe Technik, um visuelle Features zu identifizieren, die mit Sprachtoken verknüpft sind, berücksichtigt aber auch Faktoren wie das physische Verhalten von Objekten in der realen Welt (z. B. sicherstellen, dass ein Hund mit seinen Füßen auf dem Boden läuft) und die zeitliche Entwicklung (sodass das Video eine logische Sequenz von Aktivität darstellt).