Grundlagen
Multimodales Modell
Ein KI-System, das in einem Modell mehrere Modalitäten — Text, Bilder, Audio, Video — verarbeitet und/oder erzeugt, statt auf eine Datenart beschränkt zu sein.
Ein multimodales Modell (multimodal model) ist ein KI-System, das innerhalb einer einzigen Architektur mehr als eine Datenart — eine Modalität — verarbeitet und/oder erzeugt, etwa Text, Bilder, Audio und Video. Anders als ein auf eine einzige Modalität beschränktes Modell kann ein multimodales Modell beispielsweise den Inhalt eines Fotos beschreiben, eine Frage zu einem Diagramm beantworten oder aus einer Textbeschreibung ein Bild erzeugen.
Technisch wird jede Modalität in einen gemeinsamen Repräsentationsraum überführt (siehe Embedding), sodass dasselbe Netz sie gemeinsam verarbeiten kann. Moderne „nativ multimodale” Modelle werden von Anfang an auf gemischten Daten trainiert, meist auf einer Transformer-Architektur, während die Bild- und Videogenerierung häufig auf Diffusionsmodelle zurückgreift.
In den Jahren 2025–2026 ist Multimodalität bei führenden Foundation-Modellen zum Standard geworden — Gemini, GPT-4o, Claude und andere akzeptieren Text, Bilder, Dokumente, Audio und Video. Dies ist ein zentraler Schritt hin zu Assistenten, die „sehen” und „hören”, und es bildet die Grundlage agentischer Systeme, die auf reale, vielfältige Eingaben reagieren.