arXiv:2606.27483:内化未来——LLM智能体世界模型规划的统一训练范式
「内化未来」是腾讯研究人员张璇等九位作者于2026年6月25日提交至arXiv的预印本。该论文提出三阶段训练(WM-AMT、FE-SFT、FC-RL),使LLM智能体发展出世界模型——生成未来状态预测并评估计划成功率的能力,而非单纯的被动反应。
本文由人工智能基于一手来源生成。
什么是世界模型与前瞻规划
LLM智能体——自主执行任务的语言模型——目前通常对当前状态做出反应,不对后果进行内部评估。缺乏前瞻规划(面向未来的规划)意味着智能体无法在执行计划前评估其优劣。世界模型(环境模型)正是这种内部机制:模拟可能未来环境状态的能力,类似于「如果我这样做会发生什么」的心理实验。
腾讯研究人员于2026年6月25日提交至arXiv的预印本「内化未来」确定了关键问题:通过标准微调,LLM模型只能发展出表面化的、浅薄的预测——缺乏对任务执行逻辑的真正扎根。
三阶段训练:WM-AMT、FE-SFT与FC-RL
腾讯九位作者团队——张璇、周志健、乔令峰、秦宇磊、李珂、孙星、谭晓宇、曲超和齐远——提出三阶段训练:
- WM-AMT(世界模型智能体中间训练):在中间训练阶段,模型学习生成「前瞻状态展开」——未来状态投影——以及计划成功率评估。
- FE-SFT(格式引导监督微调):通过监督微调,模型学会将预测结构化为一致、可用的格式。
- FC-RL(前瞻条件强化学习):通过强化学习(RL)校准预测,使其真正有助于智能体决策。
与生成响应时不进行内部未来模拟的反应式LLM智能体不同,「内化未来」将该过程内化到单个自回归模型中,同时预测未来状态并评估成功率。
结果是否证实了这一方法?
在推理和搜索任务上的评估表明,该方法持续优于对比基线方法。具体数值结果未在arXiv可公开获取的摘要中详细列出——这对于刚提交、尚未经过独立评审的论文来说很常见。「内化未来」仍是腾讯的学术预印本,更广泛的验证尚待进行。
常见问题
- 在LLM智能体背景下,什么是「世界模型」?
- 世界模型是智能体在采取行动前模拟可能未来环境状态的内部机制——类比于在脑中进行「如果……会怎样」情景推演,而非单纯对当前状态做出反应。
- 「内化未来」提出的三个训练阶段是什么?
- WM-AMT(在中间训练阶段注入预测能力)、FE-SFT(通过监督微调结构化预测内容)和FC-RL(通过强化学习精炼预测,使其更校准、更有用)。