🟡 📦 开源 发布于: · 2 分钟阅读 ·

arXiv:2606.08094:vla.cpp 在 1.3 GiB 内存上运行 Vision-Language-Action 模型

arXiv:2606.08094 ↗

编辑插图:2606.08094:vla.cpp 在 1.3 GiB 内存上运行 Vision-Language-Action 模型

一篇新论文提出 vla.cpp,一个用于在资源受限的机器人硬件上运行 Vision-Language-Action 策略的 C++ 推理引擎。该引擎在 LIBERO-Object 基准上达到 SOTA 水平,并仅用 1.3 GiB 内存运行 BitVLA。

🤖

本文由人工智能基于一手来源生成。

arXiv 于 2026 年 6 月 6 日发表了一篇论文(编号 arXiv:2606.08094,版本 v1),提出了 vla.cpp,一个用于在简朴机器人硬件上运行 Vision-Language-Action 模型的 C++ 推理引擎。这是一种开源方案,力图消除对强大显卡的依赖。

什么是 vla.cpp,它有什么用?

vla.cpp 是一个 C++ 推理引擎(用于推断的运行时环境),用于运行 Vision-Language-Action(VLA)策略。VLA 模型把视觉输入、语言指令和动作联系起来,使机器人能够根据所见所闻执行任务。

其核心意图是在资源受限的机器人硬件上运行这些策略,而非在工作站 GPU 上。由此,VLA 模型得以贴近通常没有强大板载显卡的真实机器人。

vla.cpp 在基准上表现如何?

根据论文,该引擎在 LIBERO-Object 基准上达到 SOTA(state-of-the-art)水平的性能,而且是在单个回合内。这意味着它不会为了能在较弱的硬件上运行而牺牲任务执行质量。

尤为突出的是,它以完整的成功率运行 BitVLA 模型,仅需 1.3 GiB 内存。如此小的内存占用使该引擎可用于那些本来不足以运行现代 VLA 模型的设备。

vla.cpp 支持多少种架构?

该引擎通过统一协议支持 5 个骨干模型家族(基础网络)中的 7 种架构和 4 种动作头(把表示转换为动作的模块)类型。这一切都通过单一协议完成,便于在不同模型之间切换而无需大幅改动。

这种通用性对希望在同一设备上尝试不同 VLA 模型的研究者和工程师很重要。vla.cpp 不必为每种架构单独实现,而是提供一个共同的执行层。

延迟是如何被降低的?

为了加快运行,作者引入了自定义 GEMM 优化。GEMM(General Matrix Multiply,通用矩阵乘法)是构成神经网络核心的矩阵乘法运算,因此对它的优化直接影响速度。

这一定制优化将 BitVLA 模型的延迟降低了 4.5 倍。更低的延迟意味着机器人的反应更快,这对那些要求及时行动的任务至关重要。

它在什么样的硬件上进行了测试?

该引擎在三个硬件层级上进行了测试,从消费级 GPU(面向消费者的显卡)到 8 GB 内存的嵌入式模块。这一范围涵盖了开发环境和嵌入式环境,正如真实机器人中所见。

由此,论文表明 VLA 模型不仅能在实验室中运行,也能在资源受限的嵌入式设备上运行。这是迈向能够本地推理、无需依赖外部强大服务器的机器人的重要一步。

常见问题

什么是 vla.cpp?
vla.cpp 是一个 C++ 推理引擎(用于推断的运行时环境),用于在资源受限的机器人硬件上运行 Vision-Language-Action(VLA)策略,而非在强大的工作站 GPU 上运行。其目标是把 VLA 模型带到内存极少的设备上。
需要多少内存?
该引擎以完整的成功率运行 BitVLA 模型,仅需 1.3 GiB 内存。它在三个硬件层级上进行了测试,从消费级 GPU 到 8 GB 内存的嵌入式模块,这使它可应用于极为简朴的设备。
它支持多少种架构?
vla.cpp 通过统一协议支持 5 个骨干模型家族中的 7 种架构和 4 种动作头类型。自定义 GEMM 优化进一步将 BitVLA 模型的延迟降低 4.5 倍。