arXiv:2605.30280 Qwen-VLA：机器人的视觉语言动作

Qwen-VLA 是 Qwen 团队的统一具身基础模型，为操作和导航等多样化机器人任务整合了视觉、语言和动作，可跨不同机器人平台运行。这篇有 40 位作者（包括 Junyang Lin 和 Jingren Zhou）的论文在 LIBERO 基准上取得 97.9%，并对新环境和新本体表现出强泛化能力。

Qwen 团队发表了论文 Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments，提出了一个用于机器人学的统一具身基础模型。该论文由 40 位作者署名，包括第一作者 Qiuyue Wang 以及 Qwen 团队的杰出成员 Junyang Lin、Jingren Zhou 和 Shuai Bai。

什么是 Qwen-VLA，它如何构建？

Qwen-VLA 是一个具身基础模型（embodied foundation model）——一种用于在物理机器人中具身化的人工智能模型，整合了视觉、语言理解和动作生成（Vision-Language-Action，VLA）。该模型扩展了现有的 Qwen 视觉-语言栈，并通过将操作和导航能力统一到单一系统来解决机器人学中的碎片化问题。

其架构使用基于 DiT 的动作解码器（DiT — Diffusion Transformer）来生成连续动作和轨迹，并辅以感知和推理。它在多样化来源上训练：机器人操作、人类演示、仿真数据和导航数据集。

Qwen-VLA 如何跨不同机器人运行？

关键机制是具身感知的提示条件化（embodiment-aware prompt conditioning）——针对单个机器人的文本描述定义当前本体（机器人的物理身体）。由此同一模型无需为每个机器人单独训练即可控制不同的机器人平台。

机器人学中的本体（embodiment）指具体的物理配置——关节数量、夹爪类型、尺寸——它因机器人而异。泛化到新本体是该领域最困难的问题之一。

Qwen-VLA 取得了哪些成绩？

该模型在多个基准上表现强劲：

操作类 LIBERO 基准上 97.9%
Simpler-WidowX 上 73.7%
RoboTwin 任务上 86.1% / 87.2%
真实 ALOHA 实验中 76.9% 的平均成功率
DOMINO 动态操作上 26.6% 的零样本成功率

论文强调了跨场景和机器人形态变化的「一致的多任务性能和分布外泛化」。在 DOMINO 基准上的零样本结果（无需在具体任务上预先训练即取得成功）展示了将所学迁移到全新情境的能力。

为什么 Qwen-VLA 对机器人学很重要？

通过跨任务、环境和机器人身体统一视觉、语言和动作，Qwen-VLA 接近了一个无需为每个平台重新训练的通用机器人模型的理念。对新环境和新本体的强泛化能力降低了在现实世界中部署机器人的成本，并将该模型定位为具身 AI 系统发展中的重要一步。

常见问题

什么是 Qwen-VLA？

Qwen-VLA 是一个统一的具身基础模型，通过整合视觉、语言理解和动作生成来扩展 Qwen 的视觉-语言栈。它跨不同机器人平台覆盖操作和导航，使用基于 DiT 的动作解码器生成连续动作和轨迹。

Qwen-VLA 取得了哪些成绩？

它在操作类的 LIBERO 基准上取得 97.9%，Simpler-WidowX 上 73.7%，RoboTwin 任务上 86.1%/87.2%，真实 ALOHA 实验中 76.9% 的平均成功率，以及 DOMINO 动态操作上 26.6% 的零样本成功率。

Qwen-VLA 如何支持不同的机器人？

它使用具身感知的提示条件化（embodiment-aware prompt conditioning），由针对单个机器人的文本描述定义当前本体。这使模型能跨多个机器人平台运行并泛化到新的形态。

arXiv:2605.30280：Qwen-VLA 为多样化机器人统一视觉、语言与动作

什么是 Qwen-VLA，它如何构建？

Qwen-VLA 如何跨不同机器人运行？

Qwen-VLA 取得了哪些成绩？

为什么 Qwen-VLA 对机器人学很重要？

常见问题

来源

相关新闻