ArXiv:带有思维链的标准Transformer无法在TC^0复杂度之外进行推理——信号柱词元实现长度可泛化的图灵模拟
Kraus、Sarrof、Yao、Koller和Hahn的新ArXiv预印本表明,在长度可泛化学习的更严格要求下,带有思维链推理的标准Transformer无法解决TC^0复杂度以外的问题。思维链的实证成功并不意味着在实践中具有理论上的图灵完备性。提出的解决方案——动态词汇扩展加信号柱词元——以线性思维链开销实现了长度可泛化的图灵机模拟。
Kraus、Sarrof、Yao、Koller和Hahn团队于2026年4月28日发布预印本**《Transformer通用推理的障碍(及其克服方法)》**——这是一项对当前大语言模型思维链推理扩展具有直接影响的理论工作。
证明了什么?
预印本的核心论点:尽管文献中已知思维链理论上将Transformer的表达能力提升至图灵完备,但这一主张在长度可泛化学习(能够解决比训练时见过的思维链更长的轨迹)的更严格要求下并不成立。
摘要引用:
“在标准位置编码和有限字母表下——带有思维链的Transformer无法解决TC^0以外的问题,即在长度可泛化可学习性的更严格要求下,表达能力优势不成立。”
实际影响:许多在训练长度上看似已解决的推理问题,当序列长度增加时会失效。这解释了为什么大语言模型在长算术/逻辑链上经常”忘记计数”或失去准确性。
提出的解决方案
作者提出了两种互补机制:
1. 动态词汇扩展
词汇表随问题规模增长。这绕过了定理中”有限字母表”的限制。
2. 信号柱词元 + 值变化编码
- 信号柱词元 — 为模拟机器”纸带”的每个位置分配唯一标识符
- 值变化编码 — 只记录状态变化而非完整状态,从而通过计数实现重建
两者结合实现了主要结果:
“图灵机的长度可泛化模拟,其中思维链轨迹长度相对于模拟运行时间呈线性关系,开销为常数因子。”
换言之:这种方法以最小的词元开销突破了TC^0障碍。
实证验证
除理论证明外,作者还提供了实证验证——信号柱词元和值变化编码在复杂问题上的”长度泛化性能有实际改善”。完整论文中会有更详细的分析。
为何重要?
这项工作有助于解释为什么仅通过添加更多思维链词元来扩展推理不起作用——存在根本性的理论障碍,而不仅仅是训练数据不足。对下一代大语言模型的影响:
- Anthropic Claude、OpenAI GPT和Gemini的架构可能需要用于长度泛化的结构性补充(信号柱词元或等效物)
- 多重思维链-工具组合方法(如Mistral Vibe或Anthropic Claude Code子智能体)可能已经隐含了类似信号柱的机制
这项工作应与行业公告一起关注——如果某个下一代旗舰模型提到”新位置编码”或”动态词汇表”,那很可能是对这类理论问题的回应。
常见问题
- 什么是TC^0复杂度?
- TC^0是可以用常数深度并行阈值电路解决的问题类。许多自然语言和逻辑问题(奇偶性、任意长输入上的双重算术)超出TC^0范围。在固定字母表和位置编码下,标准Transformer的表达能力被限制在TC^0范围内。
- 为什么思维链本身无法解决这个问题?
- 虽然理论上思维链可以将Transformer的表达能力提升至图灵完备,但作者证明,在*长度可泛化*条件下(能够解决比训练样本更长的思维链轨迹),Transformer无法解决TC^0以外的问题。实际大语言模型在较长序列上表现不佳,因为训练长度将表达能力限制在TC^0范围内。
- 信号柱词元如何解决这个问题?
- 信号柱词元为模拟机器“纸带”的每个位置分配唯一标识符。结合值变化编码(只记录变化而非完整状态),可实现图灵机的长度可泛化模拟,其中思维链轨迹长度相对于模拟运行时间呈线性关系,且开销为常数因子。
本文由人工智能基于一手来源生成。