arXiv:2604.21764：ACL 2026推理技能减少token数

Guangxiang Zhao等作者团队于2026年4月23日发表了论文《Thinking with Reasoning Skills: Fewer Tokens, More Accuracy》，该论文被ACL 2026工业赛道录用。该方法从长链思维推理中提炼出可复用的推理技能，并将其作为检索引导的新问题解决捷径，在减少token数量的同时提升了编程和数学任务的准确率。

Guangxiang Zhao、Qilong Shi、Xusen Xiao、Xiangzheng Zhang、Tong Yang和Lin Sun组成的团队于2026年4月23日在ArXiv发表了论文**《Thinking with Reasoning Skills: Fewer Tokens, More Accuracy》（arXiv:2604.21764）。该论文被第64届ACL——计算语言学协会——工业赛道**录用，该赛道在ACL 2026会议框架内举办。

论文解决了什么问题？

现代推理LLM（如OpenAI o1、DeepSeek R1、启用思考模式的Claude Opus）通过生成长**链式思维（CoT）**轨迹来实现复杂任务的高准确率——在给出最终答案前，内部”逐步”推理通常消耗数百或数千个token。问题在于模型”在解决新问题时在长中间推理轨迹上花费大量token”，这会大幅增加每次查询的成本和延迟。对于生产部署而言，这是严重的经济障碍——例如，一次推理查询的成本可能是标准补全的10倍。

解决方案是什么？

作者提出了一种根本性的范式转变：不再从头推理（每次查询时从零开始推理），而是”提议总结并存储从大量思考和试错探索中提炼的可复用推理技能”。想法是，在模型用长CoT解决了一个问题之后，提取出简洁的’技能’来概括关键推理步骤。这些技能被存储在一个知识库中，当有新的查询时，系统首先检索相关技能并将其作为引导：“帮助模型避免冗余弯路，专注于有效的解决路径”。

结构化推理与自由推理

与经典CoT的区别在于，自由推理总是从头开始探索所有可能的方法——包括那些行不通的。由提炼技能引导的结构化推理充当”经验捷径”：模型获得过去成功的摘要并可以立即应用。这在概念上类似于经典AI文献中的基于案例的推理方法，但应用于检索增强LLM推理的背景下。

具体结果是什么？

作者在编程和数学推理任务上测试了该论文。摘要指出该方法”在显著减少推理token的同时提升了整体性能”——具体的token减少百分比和准确率提升在公开摘要中没有给出，而在论文正文中。经济影响显而易见：“由此产生的较低每请求成本表明在实际部署中具有强大的实际和经济潜力”。

为什么这项研究对业界重要？

被ACL工业赛道录用表明同行评审者认为该研究是生产就绪的，而非仅具学术意义。对于通过API提供推理模型服务的公司（OpenAI、Anthropic、Google、DeepSeek），这种方法可能严重影响利润率——每次查询的token数量减少意味着运营成本更低，或性价比更好。在推理模型可能消耗普通模型10倍以上token的时代，即使30-40%的减少对于每月处理数十亿次查询的超大规模服务商而言也代表数百万美元的节省。

常见问题

什么是推理LLM的'过度思考'问题？

像OpenAI o1或DeepSeek R1这样的推理模型在解决新问题时会生成非常长的链思维轨迹（通常数千个token），因为它们会一遍遍地探索相同的方法和死胡同。这会大幅增加推理成本和延迟。

论文中的方法如何解决这个问题？

作者提出提取并存储从之前长期推理中提炼的可复用推理技能。在推理时，模型检索与查询相关的技能并将其用作引导，而不是从头推理，从而避免冗余的弯路。

ACL工业赛道意味着什么？

ACL（计算语言学协会）是顶级NLP会议。工业赛道是专为来自业界的实用性论文设置的特别环节——这意味着该论文被评估为可部署的成果，而非纯学术性研究。

arXiv:2604.21764：'Thinking with Reasoning Skills'在ACL 2026工业赛道减少推理token数的同时提升准确率