arXiv: vla.cpp betreibt VLA mit 1,3 GiB

Eine neue Arbeit praesentiert vla.cpp, eine C++-Inference-Engine zum Betrieb von Vision-Language-Action-Policies auf ressourcenbeschraenkter Roboter-Hardware. Die Engine erreicht SOTA-Niveau im LIBERO-Object-Benchmark und fuehrt BitVLA mit nur 1,3 GiB Speicher aus.

arXiv veroeffentlichte am 6. Juni 2026 eine Arbeit (Kennung arXiv:2606.08094, Version v1), die vla.cpp praesentiert, eine C++-Inference-Engine zum Betrieb von Vision-Language-Action-Modellen auf bescheidener Roboter-Hardware. Es handelt sich um einen Open-Source-Ansatz, der die Abhaengigkeit von leistungsstarken Grafikkarten beseitigen will.

Was ist vla.cpp und wozu dient es?

vla.cpp ist eine C++-Inference-Engine (eine Laufzeitumgebung fuer Inferenz) zum Betrieb von Vision-Language-Action-Policies (VLA). VLA-Modelle verbinden visuelle Eingabe, Sprachanweisungen und Aktionen und ermoeglichen es einem Roboter so, auf Basis dessen, was er sieht und hoert, eine Aufgabe auszufuehren.

Die zentrale Absicht ist es, diese Policies auf ressourcenbeschraenkter Roboter-Hardware statt auf Workstation-GPUs zu betreiben. Damit ruecken VLA-Modelle naeher an reale Roboter, die in der Regel keine leistungsstarke Grafikkarte an Bord haben.

Wie schneidet vla.cpp im Benchmark ab?

Laut der Arbeit erreicht die Engine eine SOTA-Leistung (state-of-the-art) im LIBERO-Object-Benchmark, und zwar innerhalb einer einzigen Episode. Das bedeutet, dass sie die Qualitaet der Aufgabenausfuehrung nicht opfert, um auf schwaechere Hardware zu passen.

Besonders bemerkenswert ist die Ausfuehrung des Modells BitVLA bei voller Success Rate mit nur 1,3 GiB Speicher. Ein so geringer Speicherbedarf macht die Engine auf Geraeten nutzbar, die ansonsten fuer moderne VLA-Modelle nicht ausreichen wuerden.

Wie viele Architekturen unterstuetzt vla.cpp?

Die Engine unterstuetzt 7 Architekturen ueber 5 Backbone-Modellfamilien (grundlegende Netze) und 4 Action-Head-Typen (Module, die eine Repraesentation in eine Aktion umwandeln). All das erfolgt ueber ein einheitliches Protokoll, was den Wechsel von einem Modell zum anderen ohne grosse Aenderungen erleichtert.

Eine solche Universalitaet ist wichtig fuer Forscher und Ingenieure, die verschiedene VLA-Modelle auf demselben Geraet ausprobieren moechten. Statt getrennter Implementierungen fuer jede Architektur bietet vla.cpp eine einzige gemeinsame Ausfuehrungsschicht.

Wie wurde die Latenz reduziert?

Zur Beschleunigung des Betriebs fuehrten die Autoren eine Custom-GEMM-Optimierung ein. GEMM (General Matrix Multiply) ist die Matrixmultiplikationsoperation, die den Kern neuronaler Netze bildet, sodass ihre Optimierung die Geschwindigkeit direkt beeinflusst.

Diese massgeschneiderte Optimierung senkt die Latenz des Modells BitVLA um das 4,5-Fache. Geringere Latenz bedeutet schnellere Roboter-Reaktionen, was fuer Aufgaben entscheidend ist, bei denen rechtzeitiges Handeln wichtig ist.

Auf welcher Hardware wurde es getestet?

Die Engine wurde ueber drei Hardware-Stufen getestet, von einer Consumer-GPU (einer Consumer-Grafikkarte) bis zu einem Embedded-Modul mit 8 GB Speicher. Dieser Bereich deckt sowohl Entwicklungs- als auch Embedded-Umgebungen ab, wie sie in realen Robotern vorkommen.

Damit zeigt die Arbeit, dass VLA-Modelle nicht nur im Labor, sondern auch auf eingebetteter Ausstattung mit begrenzten Ressourcen betrieben werden koennen. Das ist ein wichtiger Schritt hin zu Robotern, die lokal schlussfolgern, ohne sich auf externe, leistungsstarke Server zu stuetzen.

Häufig gestellte Fragen

Was ist vla.cpp?

vla.cpp ist eine C++-Inference-Engine (eine Laufzeitumgebung fuer Inferenz) zum Betrieb von Vision-Language-Action-Policies (VLA) auf ressourcenbeschraenkter Roboter-Hardware statt auf leistungsstarken Workstation-GPUs. Ziel ist es, VLA-Modelle auf Geraete mit wenig Speicher zu bringen.

Wie viel Speicher wird benoetigt?

Die Engine fuehrt das Modell BitVLA bei voller Success Rate mit nur 1,3 GiB Speicher aus. Sie wurde ueber drei Hardware-Stufen getestet, von einer Consumer-GPU bis zu einem Embedded-Modul mit 8 GB Speicher, was sie auf sehr bescheidener Ausstattung einsetzbar macht.

Wie viele Architekturen unterstuetzt es?

vla.cpp unterstuetzt 7 Architekturen ueber 5 Backbone-Modellfamilien und 4 Action-Head-Typen, alles ueber ein einheitliches Protokoll. Eine Custom-GEMM-Optimierung senkt die Latenz des Modells BitVLA zusaetzlich um das 4,5-Fache.

arXiv:2606.08094: vla.cpp betreibt Vision-Language-Action-Modelle mit 1,3 GiB Speicher