arXiv:2605.30280: Qwen-VLA objedinjuje vid, jezik i akciju za raznolike robote
Qwen-VLA je unificirani embodied foundation model Qwen tima koji integrira vid, jezik i akciju za raznolike robotske zadatke poput manipulacije i navigacije, preko različitih robotskih platformi. Rad sa 40 autora, uključujući Junyang Lina i Jingren Zhoua, postiže 97,9% na LIBERO benchmarku i jako generalizira na nove okoline i embodimente.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Qwen tim objavio je rad Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments, koji predstavlja unificirani embodied foundation model za robotiku. Rad potpisuje 40 autora, uključujući prvu autoricu Qiuyue Wang te istaknute članove Qwen tima Junyang Lina, Jingren Zhoua i Shuai Baija.
Što je Qwen-VLA i kako je građen?
Qwen-VLA je embodied foundation model — model za umjetnu inteligenciju utjelovljenu u fizičkom robotu, koji integrira vid, razumijevanje jezika i generiranje akcija (Vision-Language-Action, VLA). Model proširuje postojeći Qwen vision-language stack i rješava fragmentaciju u robotici objedinjujući sposobnosti za manipulaciju i navigaciju u jedinstveni sustav.
Arhitektura koristi DiT-baziran action decoder (DiT — Diffusion Transformer) za generiranje kontinuiranih akcija i trajektorija, uz percepciju i rezoniranje. Treniran je na raznolikim izvorima: robotskoj manipulaciji, ljudskim demonstracijama, simulacijskim podacima i navigacijskim skupovima.
Kako Qwen-VLA radi preko različitih robota?
Ključni mehanizam je embodiment-aware prompt conditioning — tekstualni opisi specifični za pojedinog robota definiraju trenutni embodiment (fizičko tijelo robota). Time isti model može upravljati različitim robotskim platformama bez zasebnog treniranja za svaku.
Embodiment u robotici označava konkretnu fizičku konfiguraciju — broj zglobova, tip hvataljke, dimenzije — koja se razlikuje od robota do robota. Generalizacija na nove embodimente jedan je od najtežih problema u polju.
Koje rezultate postiže Qwen-VLA?
Model pokazuje snažne rezultate na više benchmarkova:
- 97,9% na LIBERO benchmarku za manipulaciju
- 73,7% na Simpler-WidowX
- 86,1% / 87,2% na RoboTwin zadacima
- 76,9% prosječne uspješnosti u stvarnim ALOHA eksperimentima
- 26,6% zero-shot uspjeha na DOMINO dinamičkoj manipulaciji
Rad ističe “konzistentne multi-task performanse i out-of-distribution generalizaciju” kroz varijacije scena i robotskih morfologija. Zero-shot rezultat (uspjeh bez prethodnog treniranja na konkretnom zadatku) na DOMINO benchmarku pokazuje sposobnost prenošenja naučenog na potpuno nove situacije.
Zašto je Qwen-VLA važan za robotiku?
Unificiranjem vida, jezika i akcije preko zadataka, okolina i robotskih tijela, Qwen-VLA se približava ideji općeg robotskog modela koji se ne mora iznova trenirati za svaku platformu. Snažna generalizacija na nove okoline i embodimente smanjuje trošak primjene robota u stvarnom svijetu i pozicionira model kao značajan korak u razvoju embodied AI sustava.
Česta pitanja
- Što je Qwen-VLA?
- Qwen-VLA je unificirani embodied foundation model koji proširuje Qwen vision-language stack integracijom vida, razumijevanja jezika i generiranja akcija. Pokriva manipulaciju i navigaciju preko različitih robotskih platformi, koristeći DiT-baziran action decoder za kontinuirane akcije i trajektorije.
- Koje rezultate postiže Qwen-VLA?
- Postiže 97,9% na LIBERO benchmarku za manipulaciju, 73,7% na Simpler-WidowX, 86,1%/87,2% na RoboTwin zadacima, 76,9% prosječne uspješnosti u stvarnim ALOHA eksperimentima i 26,6% zero-shot uspjeha na DOMINO dinamičkoj manipulaciji.
- Kako Qwen-VLA podržava različite robote?
- Koristi embodiment-aware prompt conditioning, gdje tekstualni opisi specifični za pojedinog robota definiraju trenutni embodiment. To modelu omogućuje rad preko više robotskih platformi i generalizaciju na nove morfologije.
Povezane vijesti
arXiv:2606.19808: SEVRA selektivnom verifikacijom štedi do 91 posto tokena u rasuđivanju modela
arXiv:2606.20333: SoftSkill komprimira skill-dokumente u 32 latentna tokena i diže LiveMath za 42,1 boda
arXiv:2606.19327: Rubric-conditioned self-distillation nadmašuje GRPO u treniranju reasoning modela