arXiv:2606.02800: NVIDIA Cosmos 3 — 물리 AI를 위한 옴니모달 월드 모델
Cosmos 3는 arXiv 프리프린트로 공개된 NVIDIA의 새로운 옴니모달 월드 모델로, 단일 mixture-of-transformers 아키텍처 안에서 언어, 이미지, 비디오, 사운드, 행동 시퀀스를 동시에 처리하고 생성한다. 이 모델은 임바디드 및 물리 AI를 겨냥하며, 오픈소스 코드와 체크포인트, 데이터셋, 벤치마크와 함께 제공된다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
NVIDIA는 2026년 6월 1일 **『Cosmos 3: Omnimodal World Models for Physical AI』**라는 제목의 arXiv 프리프린트를 공개했다. 이 논문은 단일 통합 아키텍처 안에서 언어, 이미지, 비디오, 사운드, 행동 시퀀스를 동시에 처리하고 생성하는 모델인 Cosmos 3를 소개한다. 목표는 실제 세계에서 작동하는 로봇과 임바디드 에이전트 — 즉 물리 AI를 위한 기반 월드 모델을 만드는 것이다. 저자 목록에는 294명의 협력자가 명시되어 있다.
Cosmos 3는 실제로 무엇을 하는가?
Cosmos 3는 지금까지 분리되어 있던 것들을 하나의 프레임워크로 통합한다. 비전-언어 모델, 비디오 생성기, 월드 시뮬레이터, 행동 모델이 그것이다. 이해와 생성을 위한 별도의 시스템 대신, 하나의 모델이 여러 모달리티를 한 번에 입력받고 산출한다. 이를 통해 인식(장면 이해)과 예측(어떤 행동 이후 장면이 어떻게 전개될지)을 모두 포괄하며, 이는 로봇 제어에 핵심적이다.
Mixture-of-transformers 아키텍처
시스템의 토대는 mixture-of-transformers 설계다. 이는 하나의 거대한 단일 모델 대신 여러 트랜스포머 구성 요소가 공통 프레임워크를 공유하며 서로 다른 종류의 데이터를 처리하는 아키텍처다. 논문에 따르면 이러한 접근은 “매우 유연한 입출력 구성”을 가능하게 한다. 모델은 텍스트와 이미지를 입력받아 작업에 따라 비디오나 행동 시퀀스를 반환할 수 있다. 옴니모달이라는 용어는 언어, 이미지, 비디오, 사운드, 행동이라는 다섯 가지 모달리티가 모두 동일한 모델 안에 존재함을 의미한다.
경쟁 모델 대비 성능은 어떤가?
프리프린트에 따르면 Cosmos 3는 다양한 이해 및 생성 작업에서 최고 수준의 결과(state-of-the-art)를 달성한다. 저자들은 논문 작성 시점에 Artificial Analysis가 Cosmos 3를 최고의 오픈소스 Text-to-Image 및 Image-to-Video 모델로 평가했으며, RoboArena는 이를 최고의 policy 모델 — 즉 로봇이 어떤 행동을 취할지 결정하는 모델 — 로 평가했다고 밝혔다. 이러한 주장은 논문 자체에서 나온 것이며 공개 시점에 명시된 순위표에 근거한다.
오픈소스 패키지
논문과 함께 NVIDIA는 전체 패키지를 공개한다. 코드와 모델 체크포인트, 큐레이션된 합성 데이터셋, 평가 벤치마크가 제공된다. 자료들은 Linux Foundation의 OpenMDW-1.1 라이선스 하에 공개되며, 저장소는 GitHub(github.com/nvidia/cosmos)에, 모델 허브는 Hugging Face에 있다. 프리프린트의 첫 버전은 2026년 6월 1일에, 수정 버전은 2026년 6월 5일에 게시되었다.
왜 중요한가
코드, 체크포인트, 데이터, 벤치마크로 구성된 완전한 패키지를 공개함으로써, NVIDIA는 대형 연구소 밖에서도 물리 AI 연구의 진입 장벽을 낮춘다. 여러 모달리티를 똑같이 잘 이해하고 생성하는 월드 모델은 확장 가능한 로보틱스와 임바디드 에이전트의 핵심 요소 중 하나로 여겨진다. 따라서 Cosmos 3의 진정한 성능은 커뮤니티가 자체 하드웨어와 작업에서 이를 테스트하기 시작할 때 드러날 것이다.
자주 묻는 질문
- 월드 모델이란 무엇인가요?
- 월드 모델은 세계가 어떻게 작동하는지에 대한 내부 표현을 학습하여 행동의 결과를 예측하고 시뮬레이션할 수 있는 AI 시스템입니다. 물리적 환경에서 작동하는 로보틱스와 임바디드 에이전트에 사용됩니다.
- Cosmos 3는 오픈소스로 제공되나요?
- 네. NVIDIA는 Linux Foundation의 OpenMDW-1.1 라이선스 하에 코드와 체크포인트를 합성 데이터셋 및 평가 벤치마크와 함께 GitHub와 Hugging Face에 공개했습니다.