世界モデル

世界モデル（world model）とは、ある環境の内部表現を構築し、その環境が行動に応じて時間とともにどう変化するかを予測する機械学習システムである。エージェントは現実の試行のみに頼るのではなく、モデルの中で未来の状態を「想像」し、行動する前に計画を立てられる。

テキストトークンを扱う大規模言語モデルと異なり、世界モデルは多くの場合、センサー入力（ピクセル、深度、ライダー）を処理し、物理・衝突・因果といったダイナミクスを学習する。代表的な手法には、モデルベースの強化学習、潜在空間における予測アーキテクチャ（JEPA）、そして DeepMind の Genie 3 のように対話的な環境をリアルタイムで生成する動画生成モデルがある。

2025〜2026年には、世界モデルは身体性を持つエージェント型AIやロボティクスへの重要な一歩、さらには AGI への道筋の一つとみなされている。ほぼ無限に多様な豊かなシミュレーション環境でエージェントを訓練できるからである。

出典

関連項目