本文中的「推理技能」是什么？

作者将推理技能定义为通过对较难任务进行大量探索而提炼出的可复用推理模式。模型无需每次从头构建思维链，而是检索相关技能并将其用作推理起点。

这对部署成本意味着什么？

推理模型通常在生成思维链时消耗大量令牌。在降低每次查询令牌数的同时提升准确率，这种方法直接降低了使用推理模型的生产系统的运营成本。

推理技能思考法：令牌更少，准确率更高

2026年4月24日，ArXiv上发表了论文**《Thinking with Reasoning Skills: Fewer Tokens, More Accuracy》，该论文已被第64届计算语言学协会年会（ACL 2026）工业赛道录用。作者包括Guangxiang Zhao、Qilong Shi、Xusen Xiao、Xiangzheng Zhang、Tong Yang和Lin Sun**。

本文针对现代推理模型生成中一个众所周知的问题：生成思维链时消耗大量令牌，直接影响生产环境中推理调用的延迟和成本。

作者提出了什么方案？

与传统范式中推理模型每次从头生成思维链不同，作者提出模型检索可复用的推理模式——「推理技能」——来自预先构建的知识库。

这些技能通过对较难任务进行大量探索来提炼：模型生成大量推理轨迹，再从中抽象出结构化模式，作为「推理模板」。推理新问题时，系统识别相关技能并将其作为起点。

结果是双重优势——减少令牌消耗（因为模型无需从头构建完整逻辑结构）和提升准确率（因为使用的是已被证明有效的模式）。

这与RAG或上下文学习有何不同？

乍看之下，该方法类似于检索增强生成（RAG），但区别至关重要：RAG检索的是事实或文档，而本文检索的是抽象的结构化推理模式。

它也不同于少样本示例的上下文学习。少样本提示为模型提供具体的已解决任务示例，而推理技能代表的是通用元知识——处理某类问题的方式，不含具体数字或输入值。

作者认为这更接近于人类专家解决已知类型问题的方式：不从头重新思考，而是识别模式并应用经过验证的解题结构。

在哪些任务上进行了评估？

本文聚焦于编程和数学推理，这是当今生产环境中推理模型最常用的两个领域。作者证明，检索技能在两个维度上均超越从头推理的传统方式——令牌消耗和最终答案准确率。

具体数值结果详见论文全文，但核心论断具有定性意义：该方法推进了效率的帕累托前沿，使模型能够同时更经济且更准确。

这对开发团队意味着什么？

OpenAI GPT-5.5、Anthropic Opus 4.7以及同日发布的DeepSeek V4等推理模型，其令牌消耗通常是非推理模型的3到10倍。这直接影响聊天机器人、Copilot工具和智能体系统的运营成本。

同时降低令牌数量并提升准确率的方法在文献中十分罕见——大多数优化都需要在两者之间取舍。如果结果能在独立实验中得到复现，预计将集成到下一代生产推理模型中，很可能通过分层智能体框架实现。

对于面向企业用户构建AI Copilot工具的团队而言——每次推理模型调用都成本高昂——此类技术具有潜在的革命性意义。ACL工业赛道的录用证明该论文具有直接的工业应用价值，而非仅限于学术价值。

Thinking with Reasoning Skills（ACL 2026工业赛道）：通过检索推理技能减少令牌消耗、提升准确率

作者提出了什么方案？

这与RAG或上下文学习有何不同？

在哪些任务上进行了评估？

这对开发团队意味着什么？

来源

相关新闻