세계 모델

세계 모델(world model)은 특정 환경의 내부 표현을 구축하고, 그 환경이 행동에 따라 시간이 지나면서 어떻게 변하는지를 예측하는 기계 학습 시스템이다. 에이전트는 현실의 시도에만 의존하지 않고 모델 안에서 미래 상태를 “상상”하며, 행동하기 전에 계획을 세울 수 있다.

텍스트 토큰을 다루는 대규모 언어 모델과 달리, 세계 모델은 흔히 감각 입력(픽셀, 깊이, 라이다)을 처리하고 물리, 충돌, 인과와 같은 동역학을 학습한다. 대표적인 접근법으로는 모델 기반 강화 학습, 잠재 공간 예측 아키텍처(JEPA), 그리고 DeepMind의 Genie 3처럼 대화형 환경을 실시간으로 생성하는 영상 생성 모델이 있다.

2025~2026년에 세계 모델은 체화된 에이전트형 AI와 로보틱스로 가는 핵심 단계이자 AGI로 향하는 하나의 경로로 여겨진다. 사실상 무한히 다양한 풍부한 시뮬레이션 환경에서 에이전트를 훈련할 수 있기 때문이다.

출처

관련 항목