🟡 🤖 Modeli Objavljeno: · 2 min čitanja ·

arXiv:2605.30280: Qwen-VLA objedinjuje vid, jezik i akciju za raznolike robote

arXiv:2605.30280 ↗

Urednička ilustracija: Qwen-VLA objedinjuje vid, jezik i akciju za raznolike robote

Qwen-VLA je unificirani embodied foundation model Qwen tima koji integrira vid, jezik i akciju za raznolike robotske zadatke poput manipulacije i navigacije, preko različitih robotskih platformi. Rad sa 40 autora, uključujući Junyang Lina i Jingren Zhoua, postiže 97,9% na LIBERO benchmarku i jako generalizira na nove okoline i embodimente.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Qwen tim objavio je rad Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments, koji predstavlja unificirani embodied foundation model za robotiku. Rad potpisuje 40 autora, uključujući prvu autoricu Qiuyue Wang te istaknute članove Qwen tima Junyang Lina, Jingren Zhoua i Shuai Baija.

Što je Qwen-VLA i kako je građen?

Qwen-VLA je embodied foundation model — model za umjetnu inteligenciju utjelovljenu u fizičkom robotu, koji integrira vid, razumijevanje jezika i generiranje akcija (Vision-Language-Action, VLA). Model proširuje postojeći Qwen vision-language stack i rješava fragmentaciju u robotici objedinjujući sposobnosti za manipulaciju i navigaciju u jedinstveni sustav.

Arhitektura koristi DiT-baziran action decoder (DiT — Diffusion Transformer) za generiranje kontinuiranih akcija i trajektorija, uz percepciju i rezoniranje. Treniran je na raznolikim izvorima: robotskoj manipulaciji, ljudskim demonstracijama, simulacijskim podacima i navigacijskim skupovima.

Kako Qwen-VLA radi preko različitih robota?

Ključni mehanizam je embodiment-aware prompt conditioning — tekstualni opisi specifični za pojedinog robota definiraju trenutni embodiment (fizičko tijelo robota). Time isti model može upravljati različitim robotskim platformama bez zasebnog treniranja za svaku.

Embodiment u robotici označava konkretnu fizičku konfiguraciju — broj zglobova, tip hvataljke, dimenzije — koja se razlikuje od robota do robota. Generalizacija na nove embodimente jedan je od najtežih problema u polju.

Koje rezultate postiže Qwen-VLA?

Model pokazuje snažne rezultate na više benchmarkova:

  • 97,9% na LIBERO benchmarku za manipulaciju
  • 73,7% na Simpler-WidowX
  • 86,1% / 87,2% na RoboTwin zadacima
  • 76,9% prosječne uspješnosti u stvarnim ALOHA eksperimentima
  • 26,6% zero-shot uspjeha na DOMINO dinamičkoj manipulaciji

Rad ističe “konzistentne multi-task performanse i out-of-distribution generalizaciju” kroz varijacije scena i robotskih morfologija. Zero-shot rezultat (uspjeh bez prethodnog treniranja na konkretnom zadatku) na DOMINO benchmarku pokazuje sposobnost prenošenja naučenog na potpuno nove situacije.

Zašto je Qwen-VLA važan za robotiku?

Unificiranjem vida, jezika i akcije preko zadataka, okolina i robotskih tijela, Qwen-VLA se približava ideji općeg robotskog modela koji se ne mora iznova trenirati za svaku platformu. Snažna generalizacija na nove okoline i embodimente smanjuje trošak primjene robota u stvarnom svijetu i pozicionira model kao značajan korak u razvoju embodied AI sustava.

Česta pitanja

Što je Qwen-VLA?
Qwen-VLA je unificirani embodied foundation model koji proširuje Qwen vision-language stack integracijom vida, razumijevanja jezika i generiranja akcija. Pokriva manipulaciju i navigaciju preko različitih robotskih platformi, koristeći DiT-baziran action decoder za kontinuirane akcije i trajektorije.
Koje rezultate postiže Qwen-VLA?
Postiže 97,9% na LIBERO benchmarku za manipulaciju, 73,7% na Simpler-WidowX, 86,1%/87,2% na RoboTwin zadacima, 76,9% prosječne uspješnosti u stvarnim ALOHA eksperimentima i 26,6% zero-shot uspjeha na DOMINO dinamičkoj manipulaciji.
Kako Qwen-VLA podržava različite robote?
Koristi embodiment-aware prompt conditioning, gdje tekstualni opisi specifični za pojedinog robota definiraju trenutni embodiment. To modelu omogućuje rad preko više robotskih platformi i generalizaciju na nove morfologije.