arXiv: vla.cpp pokreće VLA na 1,3 GiB

Novi rad predstavlja vla.cpp, C++ inference engine za pokretanje Vision-Language-Action politika na resursno ograničenom robotskom hardveru. Engine dostiže SOTA razinu na benchmarku LIBERO-Object i izvršava BitVLA uz samo 1,3 GiB memorije.

arXiv je 6. lipnja 2026. objavio rad (oznaka arXiv:2606.08094, verzija v1) koji predstavlja vla.cpp, C++ inference engine za pokretanje Vision-Language-Action modela na skromnom robotskom hardveru. Riječ je o open-source pristupu koji nastoji ukloniti ovisnost o snažnim grafičkim karticama.

Što je vla.cpp i čemu služi?

vla.cpp je C++ inference engine (izvršno okruženje za zaključivanje) za pokretanje Vision-Language-Action (VLA) politika. VLA modeli povezuju vizualni ulaz, jezične upute i akcije, pa robotu omogućuju da na temelju onoga što vidi i čuje izvede zadatak.

Ključna namjera je pokretati te politike na resursno ograničenom robotskom hardveru umjesto na workstation GPU-ovima. Time se VLA modeli približavaju stvarnim robotima koji u pravilu nemaju snažnu grafičku karticu na ploči.

Kako se vla.cpp pokazuje na benchmarku?

Prema radu, engine dostiže performanse SOTA (state-of-the-art) razine na benchmarku LIBERO-Object, i to unutar jedne epizode. To znači da ne žrtvuje kvalitetu izvedbe zadatka da bi stao na slabiji hardver.

Posebno se ističe izvršavanje modela BitVLA s punim success-rateom uz samo 1,3 GiB memorije. Tako mala memorijska potrošnja čini engine upotrebljivim na uređajima koji bi inače bili nedovoljni za moderne VLA modele.

Koliko arhitektura vla.cpp podržava?

Engine podržava 7 arhitektura kroz 5 obitelji backbone modela (temeljnih mreža) i 4 tipa action-heada (modula koji pretvaraju reprezentaciju u akciju). Sve to radi preko jedinstvenog protokola, što olakšava prelazak s jednog modela na drugi bez velikih izmjena.

Takva univerzalnost važna je za istraživače i inženjere koji žele isprobati različite VLA modele na istom uređaju. Umjesto zasebnih implementacija za svaku arhitekturu, vla.cpp nudi jedan zajednički sloj izvršavanja.

Kako je smanjena latencija?

Za ubrzanje rada autori su uveli custom GEMM optimizaciju. GEMM (General Matrix Multiply) je operacija množenja matrica koja čini srž neuronskih mreža, pa njena optimizacija izravno utječe na brzinu.

Ta prilagođena optimizacija reže latenciju modela BitVLA za 4,5 puta. Manja latencija znači brže reakcije robota, što je presudno za zadatke u kojima je važno pravovremeno djelovanje.

Na kakvom je hardveru testiran?

Engine je testiran kroz tri hardverska sloja, od consumer GPU-a (potrošačke grafičke kartice) do embedded modula s 8 GB memorije. Taj raspon pokriva i razvojna i ugrađena okruženja kakva se nalaze u stvarnim robotima.

Time rad pokazuje da se VLA modeli mogu pokretati ne samo u laboratoriju, nego i na ugrađenoj opremi ograničenih resursa. To je važan korak prema robotima koji zaključuju lokalno, bez oslanjanja na vanjske, snažne poslužitelje.

Česta pitanja

Što je vla.cpp?

vla.cpp je C++ inference engine (izvršno okruženje za zaključivanje) za pokretanje Vision-Language-Action (VLA) politika na resursno ograničenom robotskom hardveru umjesto na snažnim workstation GPU-ovima. Cilj mu je dovesti VLA modele na uređaje s malo memorije.

Koliko je memorije potrebno?

Engine izvršava model BitVLA s punim success-rateom uz samo 1,3 GiB memorije. Testiran je kroz tri hardverska sloja, od consumer GPU-a do embedded modula s 8 GB memorije, što ga čini primjenjivim na vrlo skromnoj opremi.

Koliko arhitektura podržava?

vla.cpp podržava 7 arhitektura kroz 5 obitelji backbone modela i 4 tipa action-heada, sve preko jedinstvenog protokola. Custom GEMM optimizacija dodatno reže latenciju modela BitVLA za 4,5 puta.

arXiv:2606.08094: vla.cpp pokreće Vision-Language-Action modele na 1,3 GiB memorije