世界モデルとは何か？

世界モデルとは、世界がどのように振る舞うかの内部表現を学習し、行動の結果を予測・シミュレートできるAIシステムである。物理環境で動作するロボティクスや embodied エージェントに利用される。

Cosmos 3 はオープンソースとして利用できるか？

はい。NVIDIA はコードとチェックポイントを Linux Foundation の OpenMDW-1.1 ライセンスのもとで公開し、合成データセットと評価ベンチマークとともに GitHub と Hugging Face で提供している。

NVIDIA Cosmos 3: 物理AI向け世界モデル

Cosmos 3 は、arXiv プレプリントとして公開された NVIDIA の新しいオムニモーダル世界モデルであり、単一の mixture-of-transformers アーキテクチャ内で言語・画像・動画・音声・行動シーケンスを同時に処理・生成する。このモデルは embodied AI と物理AIを対象とし、オープンソースのコード、チェックポイント、データセット、ベンチマークを伴って提供される。

NVIDIA は 2026年6月1日、「Cosmos 3: Omnimodal World Models for Physical AI」 と題された arXiv プレプリントを公開した。本論文は Cosmos 3 を発表しており、これは単一の統合アーキテクチャ内で言語・画像・動画・音声・行動シーケンスを同時に処理・生成するモデルである。目標は、現実世界で動作するロボットや embodied エージェント、すなわち 物理AI のための基盤となる世界モデルを構築することにある。著者リストには 294 名の協力者が記載されている。

Cosmos 3 は実際に何をするのか？

Cosmos 3 は、これまで分離されてきたもの、すなわち vision-language モデル、動画生成器、世界シミュレータ、行動モデルを一つの枠組みに統合する。理解と生成のための個別システムの代わりに、単一のモデルが複数のモダリティを同時に受け取り、生成する。これにより、知覚（シーンの理解）と予測（ある行動の後にシーンがどう展開するか）の両方をカバーし、これはロボットの制御にとって決定的に重要である。

mixture-of-transformers アーキテクチャ

システムの基盤は mixture-of-transformers 設計であり、これは単一の一枚岩なモデルの代わりに、複数の transformer コンポーネントが共通の枠組みを共有して異なる種類のデータを処理するアーキテクチャである。論文によれば、このアプローチは「きわめて柔軟な入出力構成」を可能にする。モデルはタスクに応じて、テキストと画像を受け取り、動画や行動シーケンスを返すことができる。オムニモーダルという用語は、5 つのモダリティすべて——言語・画像・動画・音声・行動——が同じモデルの内部に存在することを意味する。

競合と比べてどれほど優れているのか？

プレプリントによれば、Cosmos 3 は多様な理解・生成タスクの集合において最高水準の結果（state-of-the-art）を達成している。著者らは、論文執筆時点で Artificial Analysis が Cosmos 3 を最良のオープンソース Text-to-Image および Image-to-Video モデルとしてランク付けし、一方で RoboArena が最良のpolicy モデル——すなわちロボットがどの行動をとるかを決定するモデル——と評価したと述べている。これらの主張は論文そのものに基づくものであり、公開時点で示されたランキングに関するものである。

オープンソースパッケージ

論文とともに、NVIDIA はパッケージ全体を公開する。コードとモデルチェックポイント、キュレーションされた合成データセット、そして評価ベンチマークが利用可能である。これらの素材は Linux Foundation の OpenMDW-1.1 ライセンスのもとで公開され、リポジトリは GitHub（github.com/nvidia/cosmos）に、モデルハブは Hugging Face にある。プレプリントの初版は 2026年6月1日に投稿され、改訂版は 2026年6月5日に投稿された。

なぜこれが重要なのか

完全なパッケージ——コード、チェックポイント、データ、ベンチマーク——を公開することで、NVIDIA は物理AI研究の敷居を大規模な研究室の外へと引き下げる。複数のモダリティを等しくうまく理解・生成する世界モデルは、スケーラブルなロボティクスと embodied エージェントの鍵となる構成要素の一つと見なされている。したがって、Cosmos 3 の真の性能は、コミュニティが自前のハードウェアとタスクで検証を始めたときに明らかになるだろう。

arXiv:2606.02800: NVIDIA Cosmos 3 — 物理AIのためのオムニモーダル世界モデル

Cosmos 3 は実際に何をするのか？

mixture-of-transformers アーキテクチャ

競合と比べてどれほど優れているのか？

オープンソースパッケージ

なぜこれが重要なのか

よくある質問

出典

関連ニュース