arXiv:2605.30280 Qwen-VLA：ロボットの視覚言語行動

Qwen-VLA は Qwen チームの統一身体性基盤モデルで、操作やナビゲーションといった多様なロボットタスクのために視覚・言語・行動を統合し、異なるロボットプラットフォームをまたいで動作します。Junyang Lin と Jingren Zhou を含む 40 名の著者による論文で、LIBERO ベンチマークで 97.9% を達成し、新しい環境や身体性へ強く汎化します。

Qwen チームは論文 Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments を発表し、ロボティクスのための統一身体性基盤モデルを提示しました。本論文には 40 名の著者が名を連ねており、筆頭著者の Qiuyue Wang や、Qwen チームの著名なメンバーである Junyang Lin、Jingren Zhou、Shuai Bai が含まれます。

Qwen-VLA とは何で、どのように構築されていますか？

Qwen-VLA は身体性基盤モデル（embodied foundation model）——物理的なロボットに身体化された人工知能のためのモデルで、視覚・言語理解・行動生成（Vision-Language-Action、VLA）を統合します。本モデルは既存の Qwen 視覚言語スタックを拡張し、操作とナビゲーションの能力を単一のシステムに統合することでロボティクスにおける断片化を解決します。

アーキテクチャは連続的な行動と軌道の生成にDiT ベースの行動デコーダ（DiT — Diffusion Transformer）を使用し、知覚と推論を併せ持ちます。ロボット操作、人間のデモンストレーション、シミュレーションデータ、ナビゲーションデータセットといった多様なソースで訓練されています。

Qwen-VLA はどのように異なるロボットをまたいで動作しますか？

鍵となる仕組みは**身体性を意識したプロンプト条件付け（embodiment-aware prompt conditioning）**です——個々のロボットに固有のテキスト記述が現在の身体性（ロボットの物理的な身体）を定義します。これにより同じモデルが、ロボットごとに個別に訓練することなく異なるロボットプラットフォームを制御できます。

ロボティクスにおける身体性（embodiment）とは、関節数、グリッパの種類、寸法といった具体的な物理構成を指し、ロボットごとに異なります。新しい身体性への汎化はこの分野で最も難しい問題の一つです。

Qwen-VLA はどのような成績を達成しますか？

本モデルは複数のベンチマークで強力な成績を示します：

操作向け LIBERO ベンチマークで 97.9%
Simpler-WidowX で 73.7%
RoboTwin タスクで 86.1% / 87.2%
実機 ALOHA 実験で 76.9% の平均成功率
DOMINO 動的操作で 26.6% のゼロショット成功率

論文はシーンやロボット形態の変化をまたぐ「一貫したマルチタスク性能と分布外汎化」を強調しています。DOMINO ベンチマークでのゼロショット結果（具体的なタスクで事前に訓練せずに成功すること）は、学習したものを全く新しい状況へ転移する能力を示しています。

なぜ Qwen-VLA はロボティクスにとって重要ですか？

タスク、環境、ロボットの身体をまたいで視覚・言語・行動を統合することで、Qwen-VLA はプラットフォームごとに再訓練する必要のない汎用ロボットモデルという理念に近づきます。新しい環境や身体性への強力な汎化は、現実世界でロボットを適用するコストを下げ、本モデルを身体性 AI システムの発展における重要な一歩として位置づけます。

よくある質問

Qwen-VLA とは何ですか？

Qwen-VLA は、視覚・言語理解・行動生成を統合して Qwen の視覚言語スタックを拡張した統一身体性基盤モデルです。異なるロボットプラットフォームをまたいで操作とナビゲーションをカバーし、連続的な行動と軌道のために DiT ベースの行動デコーダを使用します。

Qwen-VLA はどのような成績を達成しますか？

操作向けの LIBERO ベンチマークで 97.9%、Simpler-WidowX で 73.7%、RoboTwin タスクで 86.1%/87.2%、実機 ALOHA 実験で 76.9% の平均成功率、DOMINO 動的操作で 26.6% のゼロショット成功率を達成します。

Qwen-VLA はどのように異なるロボットに対応しますか？

身体性を意識したプロンプト条件付け（embodiment-aware prompt conditioning）を用い、個々のロボットに固有のテキスト記述が現在の身体性を定義します。これによりモデルは複数のロボットプラットフォームで動作し、新しい形態へ汎化できます。

arXiv:2605.30280：Qwen-VLA が多様なロボットのために視覚・言語・行動を統合

Qwen-VLA とは何で、どのように構築されていますか？

Qwen-VLA はどのように異なるロボットをまたいで動作しますか？

Qwen-VLA はどのような成績を達成しますか？

なぜ Qwen-VLA はロボティクスにとって重要ですか？

よくある質問

出典

関連ニュース