🤖 24 AI
🟢 🤖 模型 2026年4月19日星期日 · 2 分钟阅读

大语言模型能学习图上的最短路径——但当任务视野延伸时就会失效

编辑插图:带有节点和路径的图,远处渐渐消失的长视野

为什么重要

新的arXiv论文从两个维度系统研究了LLM在最短路径问题上的泛化能力:空间迁移到未见地图效果良好,但按视野长度扩展由于递归不稳定性而持续失败。结论对自主代理有直接影响——训练数据覆盖范围定义了能力边界,RL提高稳定性但不扩展边界,推理时扩展有帮助但无法解决长度扩展问题。

测试了什么?

研究人员Tong、Ye、Borovykh和Shokri在arXiv上发表了一篇论文,系统分析LLM是否能在经典算法问题——图中最短路径查找——上实现系统性泛化。测试涵盖两个独立的泛化维度:

  1. 空间迁移 — 在某组图上训练的模型,能否解决拓扑不同的未见地图上的问题?
  2. 视野长度扩展 — 在较短路径(比如5-10步)上训练的模型,能否正确解决更长路径(50步以上)?

这种方法论刻意比标准基准类型更宽泛——不仅衡量问题是否新颖,还衡量要求在结构上是否比模型在训练中见过的更难

他们发现了什么?

结果一致且值得关注:

  • 空间迁移: 成功。学会在一组图中寻找路径的模型成功泛化到相同规模的未见拓扑结构。这意味着「学习算法」在某种程度上是可行的。

  • 长度扩展: 持续失败。当路径长度超出训练范围时,模型因递归不稳定性而失败——某一步中的小错误指数级积累到最终。

他们还测试了三种干预措施:

  • 数据覆盖范围定义能力边界 — 模型知道它在训练中见过的内容,超越这一范围的扩展不起作用。
  • 强化学习(RL)提高稳定性在训练范围内有效,但不扩展泛化边界。
  • 推理时扩展(更多token预算、思维链)有帮助,但无法解决基本的长度扩展问题。

这对自主代理为何重要?

许多实际代理任务需要长视野:多步规划、研究、持续数天的软件工程项目、迭代调试复杂系统。如果LLM在结构上无法按长度扩展——这篇论文所暗示的——那么代理的自主性就从根本上受限于训练中见过的问题规模。

这与早期发现吻合(例如LongCoT基准,GPT在长思维链推理上得分9.8%):表面上最强的模型在问题延长时就会崩溃。

这对实践意味着什么?

研究人员并未声称问题不可解,但他们识别出三个不可回避的事实:

  1. 合成数据集覆盖范围必须明确包含长路径——否则模型永远不知道如何处理它们。
  2. RL和推理时扩展不是万灵药 — 它们改善模型已经学会的内容,但不添加新的系统性能力。
  3. 架构变化(层级代理、带有显式状态管理的规划)可能对真正的长度泛化是必要的。

对于AI新闻读者,结论是:下次读到模型进行「自主研究项目」时,值得问一问那个视野实际上有多深,以及问题是否在该模型训练范围之内或之外。

🤖

本文由人工智能基于一手来源生成。