腾讯：LLM智能体通过世界模型学会前瞻规划

「内化未来」是腾讯研究人员张璇等九位作者于2026年6月25日提交至arXiv的预印本。该论文提出三阶段训练（WM-AMT、FE-SFT、FC-RL），使LLM智能体发展出世界模型——生成未来状态预测并评估计划成功率的能力，而非单纯的被动反应。

什么是世界模型与前瞻规划

LLM智能体——自主执行任务的语言模型——目前通常对当前状态做出反应，不对后果进行内部评估。缺乏前瞻规划（面向未来的规划）意味着智能体无法在执行计划前评估其优劣。世界模型（环境模型）正是这种内部机制：模拟可能未来环境状态的能力，类似于「如果我这样做会发生什么」的心理实验。

腾讯研究人员于2026年6月25日提交至arXiv的预印本「内化未来」确定了关键问题：通过标准微调，LLM模型只能发展出表面化的、浅薄的预测——缺乏对任务执行逻辑的真正扎根。

腾讯九位作者团队——张璇、周志健、乔令峰、秦宇磊、李珂、孙星、谭晓宇、曲超和齐远——提出三阶段训练：

与生成响应时不进行内部未来模拟的反应式LLM智能体不同，「内化未来」将该过程内化到单个自回归模型中，同时预测未来状态并评估成功率。

在推理和搜索任务上的评估表明，该方法持续优于对比基线方法。具体数值结果未在arXiv可公开获取的摘要中详细列出——这对于刚提交、尚未经过独立评审的论文来说很常见。「内化未来」仍是腾讯的学术预印本，更广泛的验证尚待进行。

常见问题

在LLM智能体背景下，什么是「世界模型」？

世界模型是智能体在采取行动前模拟可能未来环境状态的内部机制——类比于在脑中进行「如果……会怎样」情景推演，而非单纯对当前状态做出反应。

「内化未来」提出的三个训练阶段是什么？

WM-AMT（在中间训练阶段注入预测能力）、FE-SFT（通过监督微调结构化预测内容）和FC-RL（通过强化学习精炼预测，使其更校准、更有用）。