长时域使LLM训练不稳定 — ICML 2026论文

ICML 2026接收论文通过实证方法证明，增加任务时域长度会由于探索和信用分配问题导致LLM训练严重不稳定。提出的解决方案：在训练时缩短时域，同时在推理阶段引入显式的“时域泛化”机制。该论文为前沿模型训练中的任务时域扩展建立了首批实证规律。

新的arXiv预印本（2605.02572）已被ICML 2026接收，为智能体和推理前沿模型训练中的关键挑战之一建立了首批系统性实证规律：随着任务时域（奖励信号前的步骤数）增加而出现的不稳定性。主要发现：长时域通过两种独立机制使训练不稳定——探索问题和信用分配问题。

不稳定的实证机制是什么？

作者围绕两个独立的消融实验构建论文。第一个分离探索问题：随着时域增长，模型随机遇到成功轨迹的概率呈指数级下降。这意味着奖励信号变得稀疏，梯度信息贫乏——模型每个训练步骤获得的有效更新减少。

第二个消融关注信用分配问题：当奖励在长时域后到来时，梯度必须反向传播经过许多步骤。每步的梯度方差随时域长度增加——实际上，训练中的梯度噪声在超过一定长度后会压过信号，模型停止收敛或开始振荡。

这两个问题在强化学习文献中单独来看都是已知的。论文的贡献在于实证量化——作者提供了扩展规律，可根据模型大小和时域长度预测特定LLM训练何时开始不稳定。

什么是”时域泛化”解决方案？

提出的解决方案在方法论上很简约但在概念上很重要：在较短时域上训练模型（信用分配噪声较小），然后在推理时激活显式的时域泛化机制——模型将相同推理模式应用于比训练中见过的更长轨迹的能力。这类似于序列到序列学习中的长度泛化，但应用于多步推理和智能体序列。

实际影响：训练智能体模型的团队（Anthropic、OpenAI、Google DeepMind）可能不需要直接在1000步序列上训练；相反，他们可以在50-100步上训练，并使用时域泛化作为推理时技术。

这对前沿模型设计为何重要？

随着长智能体序列在实际部署中日益增长，该论文所研究的问题变得越来越相关——Claude Code、Devin、OpenAI Codex等工具在单次智能体会话中通常执行200-500步。如果论文发现得到证实，前沿实验室可能会将部分智能体扩展从”训练越来越长的时域”转向”短时域训练，长时域泛化”的方法。

局限性：该论文主要是实证性的（没有关于不稳定性确切发生位置的闭合形式理论界限），并且专注于特定的强化学习设置。在大型商业前沿模型训练流水线背景下验证这些规律是合乎逻辑的下一步——这可能因竞争原因而仍未发表。

常见问题

LLM训练中的“任务时域”是什么？

任务时域是模型在获得奖励信号之前必须经历的步骤数——例如任务成功或失败前的智能体动作数。时域越长，模型越难学习哪些步骤对成功有贡献（信用分配问题）。

为什么长时域会使训练不稳定？

实证证据揭示了两个原因：探索问题（模型很少遇到成功的轨迹）和信用分配问题（成功到来时，梯度必须反向传播经过许多步骤，引入噪声和方差）。梯度方差随时域长度增加而增大。

什么是“时域泛化”解决方案？

方法是在较短时域上训练模型（信用分配噪声较小），然后在推理时显式激活“时域泛化”——模型将相同的推理模式应用于比训练中见过的更长序列的能力。

arXiv:2605.02572: 长时域使LLM训练不稳定 — ICML 2026论文提出“时域泛化”解决方案

不稳定的实证机制是什么？

什么是”时域泛化”解决方案？

这对前沿模型设计为何重要？

常见问题

来源

相关新闻