arXiv：vla.cpp 在 1.3 GiB 上运行 VLA

一篇新论文提出 vla.cpp，一个用于在资源受限的机器人硬件上运行 Vision-Language-Action 策略的 C++ 推理引擎。该引擎在 LIBERO-Object 基准上达到 SOTA 水平，并仅用 1.3 GiB 内存运行 BitVLA。

arXiv 于 2026 年 6 月 6 日发表了一篇论文（编号 arXiv:2606.08094，版本 v1），提出了 vla.cpp，一个用于在简朴机器人硬件上运行 Vision-Language-Action 模型的 C++ 推理引擎。这是一种开源方案，力图消除对强大显卡的依赖。

什么是 vla.cpp，它有什么用？

vla.cpp 是一个 C++ 推理引擎（用于推断的运行时环境），用于运行 Vision-Language-Action（VLA）策略。VLA 模型把视觉输入、语言指令和动作联系起来，使机器人能够根据所见所闻执行任务。

其核心意图是在资源受限的机器人硬件上运行这些策略，而非在工作站 GPU 上。由此，VLA 模型得以贴近通常没有强大板载显卡的真实机器人。

vla.cpp 在基准上表现如何？

根据论文，该引擎在 LIBERO-Object 基准上达到 SOTA（state-of-the-art）水平的性能，而且是在单个回合内。这意味着它不会为了能在较弱的硬件上运行而牺牲任务执行质量。

尤为突出的是，它以完整的成功率运行 BitVLA 模型，仅需 1.3 GiB 内存。如此小的内存占用使该引擎可用于那些本来不足以运行现代 VLA 模型的设备。

vla.cpp 支持多少种架构？

该引擎通过统一协议支持 5 个骨干模型家族（基础网络）中的 7 种架构和 4 种动作头（把表示转换为动作的模块）类型。这一切都通过单一协议完成，便于在不同模型之间切换而无需大幅改动。

这种通用性对希望在同一设备上尝试不同 VLA 模型的研究者和工程师很重要。vla.cpp 不必为每种架构单独实现，而是提供一个共同的执行层。

延迟是如何被降低的？

为了加快运行，作者引入了自定义 GEMM 优化。GEMM（General Matrix Multiply，通用矩阵乘法）是构成神经网络核心的矩阵乘法运算，因此对它的优化直接影响速度。

这一定制优化将 BitVLA 模型的延迟降低了 4.5 倍。更低的延迟意味着机器人的反应更快，这对那些要求及时行动的任务至关重要。

它在什么样的硬件上进行了测试？

该引擎在三个硬件层级上进行了测试，从消费级 GPU（面向消费者的显卡）到 8 GB 内存的嵌入式模块。这一范围涵盖了开发环境和嵌入式环境，正如真实机器人中所见。

由此，论文表明 VLA 模型不仅能在实验室中运行，也能在资源受限的嵌入式设备上运行。这是迈向能够本地推理、无需依赖外部强大服务器的机器人的重要一步。

常见问题

什么是 vla.cpp？

vla.cpp 是一个 C++ 推理引擎（用于推断的运行时环境），用于在资源受限的机器人硬件上运行 Vision-Language-Action（VLA）策略，而非在强大的工作站 GPU 上运行。其目标是把 VLA 模型带到内存极少的设备上。

需要多少内存？

该引擎以完整的成功率运行 BitVLA 模型，仅需 1.3 GiB 内存。它在三个硬件层级上进行了测试，从消费级 GPU 到 8 GB 内存的嵌入式模块，这使它可应用于极为简朴的设备。

它支持多少种架构？

vla.cpp 通过统一协议支持 5 个骨干模型家族中的 7 种架构和 4 种动作头类型。自定义 GEMM 优化进一步将 BitVLA 模型的延迟降低 4.5 倍。

arXiv:2606.08094：vla.cpp 在 1.3 GiB 内存上运行 Vision-Language-Action 模型