arXiv:2605.30280 Qwen-VLA: Sehen, Sprache, Aktion

Qwen-VLA ist ein einheitliches Embodied-Foundation-Modell des Qwen-Teams, das Sehen, Sprache und Aktion für vielfältige Roboteraufgaben wie Manipulation und Navigation über verschiedene Roboterplattformen hinweg integriert. Die Arbeit mit 40 Autoren, darunter Junyang Lin und Jingren Zhou, erreicht 97,9% auf dem LIBERO-Benchmark und generalisiert stark auf neue Umgebungen und Embodiments.

Das Qwen-Team hat die Arbeit Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments veröffentlicht, die ein einheitliches Embodied-Foundation-Modell für die Robotik vorstellt. Die Arbeit ist von 40 Autoren unterzeichnet, darunter die Erstautorin Qiuyue Wang sowie die prominenten Mitglieder des Qwen-Teams Junyang Lin, Jingren Zhou und Shuai Bai.

Was ist Qwen-VLA und wie ist es aufgebaut?

Qwen-VLA ist ein Embodied-Foundation-Modell — ein Modell für künstliche Intelligenz, die in einem physischen Roboter verkörpert ist und Sehen, Sprachverständnis und Aktionsgenerierung (Vision-Language-Action, VLA) integriert. Das Modell erweitert den bestehenden Qwen-Vision-Language-Stack und löst die Fragmentierung in der Robotik, indem es die Fähigkeiten für Manipulation und Navigation in einem einheitlichen System vereint.

Die Architektur nutzt einen DiT-basierten Action-Decoder (DiT — Diffusion Transformer) zur Erzeugung kontinuierlicher Aktionen und Trajektorien, neben Wahrnehmung und Schlussfolgern. Trainiert wurde es auf vielfältigen Quellen: Robotermanipulation, menschlichen Demonstrationen, Simulationsdaten und Navigationsdatensätzen.

Wie funktioniert Qwen-VLA über verschiedene Roboter hinweg?

Der Schlüsselmechanismus ist Embodiment-aware Prompt Conditioning — für einen einzelnen Roboter spezifische Textbeschreibungen definieren das aktuelle Embodiment (den physischen Körper des Roboters). So kann dasselbe Modell verschiedene Roboterplattformen steuern, ohne dass für jede ein eigenes Training nötig ist.

Embodiment in der Robotik bezeichnet eine konkrete physische Konfiguration — die Zahl der Gelenke, den Typ des Greifers, die Abmessungen — die sich von Roboter zu Roboter unterscheidet. Die Generalisierung auf neue Embodiments ist eines der schwierigsten Probleme des Feldes.

Welche Ergebnisse erreicht Qwen-VLA?

Das Modell zeigt starke Ergebnisse auf mehreren Benchmarks:

97,9% auf dem LIBERO-Manipulationsbenchmark
73,7% auf Simpler-WidowX
86,1% / 87,2% bei RoboTwin-Aufgaben
76,9% durchschnittlichen Erfolg in echten ALOHA-Experimenten
26,6% Zero-Shot-Erfolg bei der dynamischen DOMINO-Manipulation

Die Arbeit hebt “konsistente Multi-Task-Leistung und Out-of-Distribution-Generalisierung” über Variationen von Szenen und Robotermorphologien hervor. Das Zero-Shot-Ergebnis (Erfolg ohne vorheriges Training auf der konkreten Aufgabe) auf dem DOMINO-Benchmark zeigt die Fähigkeit, Gelerntes auf völlig neue Situationen zu übertragen.

Warum ist Qwen-VLA für die Robotik wichtig?

Durch die Vereinheitlichung von Sehen, Sprache und Aktion über Aufgaben, Umgebungen und Roboterkörper hinweg nähert sich Qwen-VLA der Idee eines allgemeinen Robotermodells, das nicht für jede Plattform neu trainiert werden muss. Starke Generalisierung auf neue Umgebungen und Embodiments senkt die Kosten des Robotereinsatzes in der realen Welt und positioniert das Modell als bedeutenden Schritt in der Entwicklung von Embodied-KI-Systemen.

Häufig gestellte Fragen

Was ist Qwen-VLA?

Qwen-VLA ist ein einheitliches Embodied-Foundation-Modell, das den Qwen-Vision-Language-Stack durch Integration von Sehen, Sprachverständnis und Aktionsgenerierung erweitert. Es deckt Manipulation und Navigation über verschiedene Roboterplattformen ab und nutzt einen DiT-basierten Action-Decoder für kontinuierliche Aktionen und Trajektorien.

Welche Ergebnisse erreicht Qwen-VLA?

Es erreicht 97,9% auf dem LIBERO-Manipulationsbenchmark, 73,7% auf Simpler-WidowX, 86,1%/87,2% bei RoboTwin-Aufgaben, 76,9% durchschnittlichen Erfolg in echten ALOHA-Experimenten und 26,6% Zero-Shot-Erfolg bei der dynamischen DOMINO-Manipulation.

Wie unterstützt Qwen-VLA verschiedene Roboter?

Es nutzt Embodiment-aware Prompt Conditioning, bei dem für einen einzelnen Roboter spezifische Textbeschreibungen das aktuelle Embodiment definieren. So kann das Modell über mehrere Roboterplattformen arbeiten und auf neue Morphologien generalisieren.

arXiv:2605.30280: Qwen-VLA vereint Sehen, Sprache und Aktion für vielfältige Roboter

Was ist Qwen-VLA und wie ist es aufgebaut?

Wie funktioniert Qwen-VLA über verschiedene Roboter hinweg?

Welche Ergebnisse erreicht Qwen-VLA?

Warum ist Qwen-VLA für die Robotik wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten