NVIDIA Cosmos 3：面向物理 AI 的全模态世界模型

Cosmos 3 是 NVIDIA 全新的全模态世界模型，以 arXiv 预印本形式发布。它在单一的 mixture-of-transformers 架构中同时处理并生成语言、图像、视频、音频和动作序列。该模型面向具身 AI 与物理 AI，并附带开源代码、检查点、数据集和基准测试。

NVIDIA 于 2026 年 6 月 1 日发布了一篇题为 “Cosmos 3: Omnimodal World Models for Physical AI” 的 arXiv 预印本。论文介绍了 Cosmos 3，这是一个在单一统一架构中同时处理并生成语言、图像、视频、音频和动作序列的模型。其目标是为物理 AI——在真实世界中行动的机器人和具身智能体——构建一个基础性的世界模型。作者名单中列出了 294 名贡献者。

Cosmos 3 究竟做什么？

Cosmos 3 将此前彼此分离的能力整合到一个框架中：视觉-语言模型、视频生成器、世界模拟器和动作模型。它不再为理解和生成分别设置独立的系统，而是用一个模型同时接收并产出多种模态。如此一来，它同时涵盖了感知（理解场景）和预测（场景在某个动作之后将如何演变），而这对于控制机器人至关重要。

Mixture-of-transformers 架构

系统的基础是 mixture-of-transformers 设计——在这种架构中，多个 transformer 组件共享同一个框架并处理不同类型的数据，而不是采用单一的庞大模型。据论文所述，这种方法支持”非常灵活的输入输出配置”：模型可以接收文本和图像，并根据任务返回视频或动作序列。全模态一词意味着全部五种模态——语言、图像、视频、音频和动作——都存在于同一个模型之中。

与竞争对手相比表现如何？

根据预印本，Cosmos 3 在多样化的理解与生成任务集合上取得了最佳成绩（state-of-the-art）。作者指出，在论文撰写之时，Artificial Analysis 将 Cosmos 3 评为最佳开源 Text-to-Image 和 Image-to-Video 模型，而 RoboArena 将其评为最佳 policy 模型——也就是决定机器人采取哪些动作的模型。这些说法来自论文本身，针对的是发布时所列出的排行榜。

开源套件

随论文一并，NVIDIA 开放了整个套件。其中提供代码和模型检查点、经过整理的合成数据集以及评估基准。这些材料在 Linux Foundation 的 OpenMDW-1.1 许可证下发布，代码仓库位于 GitHub（github.com/nvidia/cosmos），模型中心位于 Hugging Face。预印本的第一版于 2026 年 6 月 1 日发布，修订版于 2026 年 6 月 5 日发布。

为什么这很重要

通过发布完整套件——代码、检查点、数据和基准——NVIDIA 降低了大型实验室之外进行物理 AI 研究的门槛。能够同样出色地理解和生成多种模态的世界模型，被视为可扩展机器人技术和具身智能体的关键要素之一，因此 Cosmos 3 的真实性能将在社区开始用自己的硬件和任务对其进行测试时显现出来。

常见问题

什么是世界模型？

世界模型是一种 AI 系统，它学习世界如何运作的内部表征，从而能够预测和模拟动作的后果。它被用于机器人技术和在物理环境中行动的具身智能体。

Cosmos 3 是否以开源形式提供？

是的。NVIDIA 在 Linux Foundation 的 OpenMDW-1.1 许可证下发布了代码和检查点，同时还提供合成数据集和评估基准，托管在 GitHub 和 Hugging Face 上。

arXiv:2606.02800：NVIDIA Cosmos 3 —— 面向物理 AI 的全模态世界模型