arXiv:2606.02800: NVIDIA Cosmos 3 — 物理AIのためのオムニモーダル世界モデル
Cosmos 3 は、arXiv プレプリントとして公開された NVIDIA の新しいオムニモーダル世界モデルであり、単一の mixture-of-transformers アーキテクチャ内で言語・画像・動画・音声・行動シーケンスを同時に処理・生成する。このモデルは embodied AI と物理AIを対象とし、オープンソースのコード、チェックポイント、データセット、ベンチマークを伴って提供される。
この記事はAIにより一次情報源から生成されました。
NVIDIA は 2026年6月1日、「Cosmos 3: Omnimodal World Models for Physical AI」 と題された arXiv プレプリントを公開した。本論文は Cosmos 3 を発表しており、これは単一の統合アーキテクチャ内で言語・画像・動画・音声・行動シーケンスを同時に処理・生成するモデルである。目標は、現実世界で動作するロボットや embodied エージェント、すなわち 物理AI のための基盤となる世界モデルを構築することにある。著者リストには 294 名の協力者が記載されている。
Cosmos 3 は実際に何をするのか?
Cosmos 3 は、これまで分離されてきたもの、すなわち vision-language モデル、動画生成器、世界シミュレータ、行動モデルを一つの枠組みに統合する。理解と生成のための個別システムの代わりに、単一のモデルが複数のモダリティを同時に受け取り、生成する。これにより、知覚(シーンの理解)と予測(ある行動の後にシーンがどう展開するか)の両方をカバーし、これはロボットの制御にとって決定的に重要である。
mixture-of-transformers アーキテクチャ
システムの基盤は mixture-of-transformers 設計であり、これは単一の一枚岩なモデルの代わりに、複数の transformer コンポーネントが共通の枠組みを共有して異なる種類のデータを処理するアーキテクチャである。論文によれば、このアプローチは「きわめて柔軟な入出力構成」を可能にする。モデルはタスクに応じて、テキストと画像を受け取り、動画や行動シーケンスを返すことができる。オムニモーダルという用語は、5 つのモダリティすべて——言語・画像・動画・音声・行動——が同じモデルの内部に存在することを意味する。
競合と比べてどれほど優れているのか?
プレプリントによれば、Cosmos 3 は多様な理解・生成タスクの集合において最高水準の結果(state-of-the-art)を達成している。著者らは、論文執筆時点で Artificial Analysis が Cosmos 3 を最良のオープンソース Text-to-Image および Image-to-Video モデルとしてランク付けし、一方で RoboArena が最良のpolicy モデル——すなわちロボットがどの行動をとるかを決定するモデル——と評価したと述べている。これらの主張は論文そのものに基づくものであり、公開時点で示されたランキングに関するものである。
オープンソースパッケージ
論文とともに、NVIDIA はパッケージ全体を公開する。コードとモデルチェックポイント、キュレーションされた合成データセット、そして評価ベンチマークが利用可能である。これらの素材は Linux Foundation の OpenMDW-1.1 ライセンスのもとで公開され、リポジトリは GitHub(github.com/nvidia/cosmos)に、モデルハブは Hugging Face にある。プレプリントの初版は 2026年6月1日に投稿され、改訂版は 2026年6月5日に投稿された。
なぜこれが重要なのか
完全なパッケージ——コード、チェックポイント、データ、ベンチマーク——を公開することで、NVIDIA は物理AI研究の敷居を大規模な研究室の外へと引き下げる。複数のモダリティを等しくうまく理解・生成する世界モデルは、スケーラブルなロボティクスと embodied エージェントの鍵となる構成要素の一つと見なされている。したがって、Cosmos 3 の真の性能は、コミュニティが自前のハードウェアとタスクで検証を始めたときに明らかになるだろう。
よくある質問
- 世界モデルとは何か?
- 世界モデルとは、世界がどのように振る舞うかの内部表現を学習し、行動の結果を予測・シミュレートできるAIシステムである。物理環境で動作するロボティクスや embodied エージェントに利用される。
- Cosmos 3 はオープンソースとして利用できるか?
- はい。NVIDIA はコードとチェックポイントを Linux Foundation の OpenMDW-1.1 ライセンスのもとで公開し、合成データセットと評価ベンチマークとともに GitHub と Hugging Face で提供している。