arXiv：vla.cpp が 1.3 GiB で VLA を実行

新しい論文が、資源の限られたロボットハードウェアで Vision-Language-Action ポリシーを実行する C++ 推論エンジン vla.cpp を提示する。このエンジンはベンチマーク LIBERO-Object で SOTA 水準に達し、わずか 1.3 GiB のメモリで BitVLA を実行する。

arXiv は 2026 年 6 月 6 日、vla.cpp を提示する論文（識別子 arXiv:2606.08094、バージョン v1）を公開した。これは簡素なロボットハードウェアで Vision-Language-Action モデルを実行する C++ 推論エンジンである。強力なグラフィックスカードへの依存を取り除こうとするオープンソースのアプローチである。

vla.cpp とは何で、何の役に立つのか？

vla.cpp は Vision-Language-Action（VLA）ポリシーを実行するための C++ 推論エンジン（推論のための実行環境）である。VLA モデルは視覚的な入力、言語による指示、行動を結びつけ、ロボットが見たり聞いたりしたものに基づいてタスクを実行できるようにする。

中心的な狙いは、これらのポリシーをワークステーション GPU ではなく資源の限られたロボットハードウェアで実行することである。これにより VLA モデルは、ふつう強力なグラフィックスカードを基板上に持たない実際のロボットへと近づく。

vla.cpp はベンチマークでどのような性能を示すのか？

論文によれば、このエンジンはベンチマーク LIBERO-Object で SOTA（state-of-the-art）水準の性能に、しかも 1 つのエピソード内で達する。これは、より弱いハードウェアに収めるためにタスク実行の品質を犠牲にしていないことを意味する。

特に際立つのは、BitVLA モデルを完全な成功率で、わずか 1.3 GiB のメモリで実行することである。これほど小さなメモリ消費は、本来なら現代の VLA モデルには不十分なデバイスでもこのエンジンを利用可能にする。

vla.cpp はいくつのアーキテクチャに対応するのか？

このエンジンは統一プロトコルを通じて 5 つのバックボーンモデルファミリー（基盤となるネットワーク）にわたる 7 つのアーキテクチャと、4 種類のアクションヘッド（表現を行動に変換するモジュール）に対応する。これらすべてを単一のプロトコルで行うため、大きな変更なしにあるモデルから別のモデルへ移ることが容易になる。

このような普遍性は、同じデバイス上でさまざまな VLA モデルを試したい研究者や技術者にとって重要である。vla.cpp はアーキテクチャごとに別個の実装を用意するのではなく、1 つの共通の実行層を提供する。

レイテンシはどのように削減されたのか？

動作を高速化するために、著者らはカスタム GEMM 最適化を導入した。GEMM（General Matrix Multiply、一般行列乗算）はニューラルネットワークの核心をなす行列の乗算演算であり、その最適化は速度に直接影響する。

このカスタムの最適化は BitVLA モデルのレイテンシを 4.5 倍削減する。より低いレイテンシはロボットの反応がより速いことを意味し、これは適時の行動が重要なタスクにとって決定的である。

どのようなハードウェアで検証されたのか？

このエンジンは、コンシューマ GPU（消費者向けグラフィックスカード）から 8 GB メモリの組み込みモジュールまで、3 つのハードウェア層で検証された。この範囲は、実際のロボットに見られるような開発環境と組み込み環境の両方をカバーする。

これにより論文は、VLA モデルが実験室だけでなく、資源の限られた組み込み機器でも実行できることを示している。これは、外部の強力なサーバーに頼らず局所的に推論するロボットへ向けた重要な一歩である。

よくある質問

vla.cpp とは何ですか？

vla.cpp は、強力なワークステーション GPU ではなく資源の限られたロボットハードウェアで Vision-Language-Action（VLA）ポリシーを実行するための C++ 推論エンジン（推論のための実行環境）です。VLA モデルをメモリの少ないデバイスにもたらすことを目的としています。

どれほどのメモリが必要ですか？

このエンジンは BitVLA モデルを完全な成功率で、わずか 1.3 GiB のメモリで実行します。コンシューマ GPU から 8 GB メモリの組み込みモジュールまで 3 つのハードウェア層で検証されており、非常に簡素な機器でも利用可能です。

いくつのアーキテクチャに対応していますか？

vla.cpp は統一プロトコルを通じて 5 つのバックボーンモデルファミリーにわたる 7 つのアーキテクチャと 4 種類のアクションヘッドに対応します。カスタム GEMM 最適化はさらに BitVLA モデルのレイテンシを 4.5 倍削減します。

arXiv:2606.08094：vla.cpp が 1.3 GiB のメモリで Vision-Language-Action モデルを実行