arXiv: vla.cpp가 1.3 GiB에서 VLA를 실행한다

새로운 논문이 자원이 제한된 로봇 하드웨어에서 Vision-Language-Action 정책을 실행하는 C++ 추론 엔진 vla.cpp를 제시한다. 이 엔진은 벤치마크 LIBERO-Object에서 SOTA 수준에 도달하며 단 1.3 GiB 메모리로 BitVLA를 실행한다.

arXiv는 2026년 6월 6일 vla.cpp를 제시하는 논문(식별자 arXiv:2606.08094, 버전 v1)을 공개했다. 이는 단출한 로봇 하드웨어에서 Vision-Language-Action 모델을 실행하는 C++ 추론 엔진이다. 강력한 그래픽 카드에 대한 의존을 없애려는 오픈소스 접근이다.

vla.cpp란 무엇이며 무엇에 쓰이는가?

vla.cpp는 Vision-Language-Action(VLA) 정책을 실행하기 위한 C++ 추론 엔진(추론을 위한 실행 환경)이다. VLA 모델은 시각적 입력, 언어 지시, 행동을 연결하여, 로봇이 보고 들은 것을 바탕으로 과제를 수행할 수 있게 한다.

핵심 의도는 이 정책들을 워크스테이션 GPU가 아니라 자원이 제한된 로봇 하드웨어에서 실행하는 것이다. 이로써 VLA 모델은 보통 강력한 그래픽 카드를 보드 위에 갖추지 못한 실제 로봇에 가까워진다.

vla.cpp는 벤치마크에서 어떤 성능을 보이는가?

논문에 따르면 이 엔진은 벤치마크 LIBERO-Object에서 SOTA(state-of-the-art) 수준의 성능에, 그것도 하나의 에피소드 안에서 도달한다. 이는 더 약한 하드웨어에 맞추기 위해 과제 수행의 품질을 희생하지 않음을 뜻한다.

특히 두드러지는 것은 BitVLA 모델을 완전한 성공률로 단 1.3 GiB 메모리에서 실행한다는 점이다. 이처럼 작은 메모리 소비는 본래 현대 VLA 모델에는 부족한 장치에서도 이 엔진을 쓸 수 있게 한다.

vla.cpp는 몇 개의 아키텍처를 지원하는가?

이 엔진은 통합 프로토콜을 통해 5개 백본 모델 계열(기반 네트워크)에 걸친 7개 아키텍처와 4가지 액션 헤드(표현을 행동으로 변환하는 모듈) 유형을 지원한다. 이 모두를 단일 프로토콜로 처리하므로, 큰 변경 없이 한 모델에서 다른 모델로 옮기기가 쉽다.

이러한 보편성은 같은 장치에서 다양한 VLA 모델을 시험해 보려는 연구자와 엔지니어에게 중요하다. vla.cpp는 아키텍처마다 별도의 구현을 두는 대신 하나의 공통 실행 계층을 제공한다.

지연 시간은 어떻게 줄였는가?

동작을 가속하기 위해 저자들은 맞춤형 GEMM 최적화를 도입했다. GEMM(General Matrix Multiply, 일반 행렬 곱셈)은 신경망의 핵심을 이루는 행렬 곱셈 연산으로, 그 최적화는 속도에 직접 영향을 미친다.

이 맞춤형 최적화는 BitVLA 모델의 지연 시간을 4.5배 줄인다. 더 낮은 지연 시간은 로봇의 반응이 더 빠름을 뜻하며, 이는 적시의 행동이 중요한 과제에 결정적이다.

어떤 하드웨어에서 검증되었는가?

이 엔진은 소비자용 GPU(소비자용 그래픽 카드)부터 8 GB 메모리의 임베디드 모듈까지 세 가지 하드웨어 계층에서 검증되었다. 이 범위는 실제 로봇에서 볼 수 있는 개발 환경과 임베디드 환경 모두를 포함한다.

이로써 논문은 VLA 모델이 실험실뿐 아니라 자원이 제한된 임베디드 장비에서도 실행될 수 있음을 보여준다. 이는 외부의 강력한 서버에 의존하지 않고 국소적으로 추론하는 로봇을 향한 중요한 한 걸음이다.

자주 묻는 질문

vla.cpp란 무엇인가요?

vla.cpp는 강력한 워크스테이션 GPU가 아니라 자원이 제한된 로봇 하드웨어에서 Vision-Language-Action(VLA) 정책을 실행하기 위한 C++ 추론 엔진(추론을 위한 실행 환경)입니다. VLA 모델을 메모리가 적은 장치에 가져오는 것을 목표로 합니다.

얼마나 많은 메모리가 필요한가요?

이 엔진은 BitVLA 모델을 완전한 성공률로 단 1.3 GiB 메모리에서 실행합니다. 소비자용 GPU부터 8 GB 메모리의 임베디드 모듈까지 세 가지 하드웨어 계층에서 검증되어, 매우 단출한 장비에서도 활용할 수 있습니다.

몇 개의 아키텍처를 지원하나요?

vla.cpp는 통합 프로토콜을 통해 5개 백본 모델 계열에 걸친 7개 아키텍처와 4가지 액션 헤드 유형을 지원합니다. 맞춤형 GEMM 최적화는 BitVLA 모델의 지연 시간을 추가로 4.5배 줄입니다.

arXiv:2606.08094: vla.cpp가 1.3 GiB 메모리로 Vision-Language-Action 모델을 실행한다