arXiv:2606.27483: Internalizing the Future — LLMエージェントの世界モデル計画のための統一的なトレーニングパラダイム
Internalizing the Futureは、Xuan Zhangら9名のTencent研究者が2026年6月25日にarXivに投稿したプレプリントです。世界モデル能力 — 将来の状態の予測を生成し、計画の成功を評価する能力 — をLLMエージェントに付与する3段階のトレーニング(WM-AMT、FE-SFT、FC-RL)を提案します。単なる反応的な対応に替わる手法です。
この記事はAIにより一次情報源から生成されました。
世界モデルと前向き計画とは
LLMエージェント — タスクを自律的に実行する言語モデル — は今日、行動の結果を内部的に評価することなく現在の状態に反応するのが一般的です。前向き計画(将来を見据えた計画)の欠如は、エージェントが計画を実行する前にその良し悪しを評価できないことを意味します。世界モデル(世界のモデル)はまさにその内部メカニズムです:「これをしたらどうなるか」という精神的実験に似た、可能な将来の環境状態をシミュレートする能力。
Tencentの研究者が2026年6月25日にarXivに投稿したプレプリント「Internalizing the Future」は重要な問題を特定しています:標準的な微調整によってLLMモデルは表面的な予測のみを発達させ、タスク実行ロジックへの真の根拠づけはありません。
3段階トレーニング:WM-AMT、FE-SFT、FC-RL
9名のTencent著者チーム — Xuan Zhang、Zhijian Zhou、Lingfeng Qiao、Yulei Qin、Ke Li、Xing Sun、Xiaoyu Tan、Chao Qu、Yuan Qi — は3つのフェーズからなるトレーニングを提案します:
- WM-AMT(World Model Agentic Mid-Training):ミッドトレーニングフェーズでモデルは「prospective state rollouts」— 将来の状態の予測 — と計画の成功評価を生成することを学びます。
- FE-SFT(Format-Eliciting Supervised Fine-Tuning):教師あり微調整によりモデルはそれらの予測を一貫した有用なフォーマットに構造化することを学びます。
- FC-RL(Foresight-Conditioned Reinforcement Learning):強化学習(RL)によって予測がキャリブレートされ、エージェントの意思決定に真に有用なものとなります。
内部シミュレーションなしに応答を生成する反応的なLLMエージェントとは異なり、Internalizing the Futureはそのプロセスを一つの自己回帰モデルに内在化し、将来の状態を予測しながら成功を評価します。
この結果はこのアプローチを裏付けているか?
推論(reasoning)と検索(search)タスクの評価では、アプローチが比較ベースラインメソッドを一貫して上回ることが示されています。具体的な数値結果はarXivの公開サマリーに詳細に記載されていません — これはまだ提出され独立した査読を経ていない論文では一般的です。Internalizing the Futureはより広い検証がこれから行われるTencentのアカデミックプレプリントとして残ります。
よくある質問
- LLMエージェントの文脈における「世界モデル」とは何ですか?
- 世界モデルとは、エージェントが行動を起こす前に可能な将来の環境状態をシミュレートする内部メカニズムです — 現在の状態に単に反応するのではなく、「もし〜したら」というシナリオを頭の中でシミュレートすることに例えられます。
- Internalizing the Futureが提案する3つのトレーニングフェーズとは何ですか?
- WM-AMT(ミッドトレーニングフェーズで予測能力を注入)、FE-SFT(教師あり微調整で予測を構造化)、FC-RL(キャリブレートされた有用な予測のための強化学習による洗練)です。