arXiv:2605.30280: Qwen-VLA, 다양한 로봇을 위해 시각·언어·행동을 통합
Qwen-VLA는 Qwen 팀의 통합 임바디드 파운데이션 모델로, 다양한 로봇 플랫폼에 걸쳐 조작 및 내비게이션 같은 다채로운 로봇 작업을 위해 시각·언어·행동을 통합한다. Junyang Lin과 Jingren Zhou를 포함한 40명의 저자가 참여한 이 논문은 LIBERO 벤치마크에서 97.9%를 달성하고 새로운 환경과 임바디먼트로 강하게 일반화한다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Qwen 팀은 로보틱스를 위한 통합 임바디드 파운데이션 모델을 제시하는 논문 Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments를 발표했다. 이 논문에는 제1저자 Qiuyue Wang과 Qwen 팀의 저명한 구성원 Junyang Lin, Jingren Zhou, Shuai Bai를 포함한 40명의 저자가 서명했다.
Qwen-VLA란 무엇이며 어떻게 구축되었나?
Qwen-VLA는 임바디드 파운데이션 모델(embodied foundation model) — 물리적 로봇에 체화된 인공지능을 위한 모델 — 로, 시각, 언어 이해, 행동 생성(Vision-Language-Action, VLA)을 통합한다. 이 모델은 기존 Qwen 시각-언어 스택을 확장하며, 조작과 내비게이션을 위한 능력을 단일 시스템으로 통합함으로써 로보틱스의 파편화를 해결한다.
아키텍처는 인식 및 추론과 함께 연속적 행동과 궤적을 생성하기 위해 DiT 기반 action decoder(DiT — Diffusion Transformer)를 사용한다. 이 모델은 로봇 조작, 인간 시연, 시뮬레이션 데이터, 내비게이션 세트 등 다양한 출처에서 훈련되었다.
Qwen-VLA는 다양한 로봇에서 어떻게 작동하나?
핵심 메커니즘은 **임바디먼트 인식 프롬프트 조건화(embodiment-aware prompt conditioning)**다 — 특정 로봇에 특화된 텍스트 설명이 현재 임바디먼트(로봇의 물리적 신체)를 정의한다. 이를 통해 동일한 모델이 각 로봇마다 별도로 훈련하지 않고도 서로 다른 로봇 플랫폼을 제어할 수 있다.
로보틱스에서 임바디먼트는 관절 수, 그리퍼 유형, 치수 등 로봇마다 다른 구체적인 물리적 구성을 가리킨다. 새로운 임바디먼트로의 일반화는 이 분야에서 가장 어려운 문제 중 하나다.
Qwen-VLA는 어떤 성과를 달성하나?
이 모델은 여러 벤치마크에서 강력한 성과를 보인다:
- 조작 작업의 LIBERO 벤치마크에서 97.9%
- Simpler-WidowX에서 73.7%
- RoboTwin 작업에서 86.1% / 87.2%
- 실제 ALOHA 실험에서 평균 성공률 76.9%
- DOMINO 동적 조작에서 26.6% 제로샷 성공
이 논문은 장면과 로봇 형태의 변화에 걸친 “일관된 멀티태스크 성능과 분포 외(out-of-distribution) 일반화”를 강조한다. DOMINO 벤치마크에서의 제로샷 결과(특정 작업에 대한 사전 훈련 없이 거둔 성공)는 학습한 것을 완전히 새로운 상황으로 전이하는 능력을 보여준다.
Qwen-VLA가 로보틱스에 중요한 이유는?
작업, 환경, 로봇 신체에 걸쳐 시각, 언어, 행동을 통합함으로써, Qwen-VLA는 각 플랫폼마다 다시 훈련할 필요가 없는 범용 로봇 모델의 이상에 다가선다. 새로운 환경과 임바디먼트로의 강력한 일반화는 실제 세계에서의 로봇 적용 비용을 줄이고, 이 모델을 임바디드 AI 시스템 개발의 중요한 진전으로 자리매김한다.
자주 묻는 질문
- Qwen-VLA란 무엇인가요?
- Qwen-VLA는 시각, 언어 이해, 행동 생성의 통합으로 Qwen 시각-언어 스택을 확장하는 통합 임바디드 파운데이션 모델입니다. 다양한 로봇 플랫폼에 걸쳐 조작과 내비게이션을 포괄하며, 연속적 행동과 궤적을 위해 DiT 기반 action decoder를 사용합니다.
- Qwen-VLA는 어떤 성과를 달성하나요?
- 조작 작업의 LIBERO 벤치마크에서 97.9%, Simpler-WidowX에서 73.7%, RoboTwin 작업에서 86.1%/87.2%, 실제 ALOHA 실험에서 평균 성공률 76.9%, DOMINO 동적 조작에서 26.6% 제로샷 성공을 달성합니다.
- Qwen-VLA는 다양한 로봇을 어떻게 지원하나요?
- 임바디먼트 인식 프롬프트 조건화(embodiment-aware prompt conditioning)를 사용하며, 특정 로봇에 특화된 텍스트 설명이 현재 임바디먼트를 정의합니다. 이를 통해 모델이 여러 로봇 플랫폼에서 작동하고 새로운 형태로 일반화할 수 있습니다.