Vision-Language-Modell

Ein Vision-Language-Modell (vision-language model, VLM) ist ein KI-System, das Bilder und Text innerhalb eines einzigen Modells gemeinsam verarbeitet. Anders als ein auf Text beschränktes großes Sprachmodell kann ein VLM ein Foto beschreiben, Fragen zu einem Diagramm beantworten sowie in ein Bild eingebetteten Text lesen und deuten.

Technisch wird ein Bild durch einen Vision-Encoder in eine Folge von Vektorrepräsentationen umgewandelt (siehe Embedding). Diese werden in denselben Token-Strom wie der Text eingefügt, sodass ein gemeinsames Transformer-Rückgrat beides zusammen verarbeitet. So lernt das Modell die Beziehungen zwischen dem, was es „sieht”, und dem, was es in Worten ausdrückt; die Ausgabe ist meist Text — eine Beschreibung, eine Antwort oder eine Analyse.

In den Jahren 2025-2026 ist die Vision-Language-Fähigkeit bei führenden Foundation-Modellen zum Standard geworden: GPT-4o, Claude und Gemini nehmen Bilder, Dokumente und Screenshots nativ entgegen. Dies ist ein wichtiger Schritt hin zu Assistenten, die „sehen” können, und es bildet zugleich die Grundlage für agentische Systeme, die auf visuelle Eingaben wie Benutzeroberflächen und Tabellen reagieren.

Quellen

Siehe auch