🤖 24 AI
🟡 🤖 模型 2026年4月24日星期五 · 2 分钟阅读

Thinking with Reasoning Skills(ACL 2026工业赛道):通过检索推理技能减少令牌消耗、提升准确率

编辑插图:推理技能——推理模式与令牌

为什么重要

Zhao等人的团队在ACL 2026工业赛道发表论文,提出从大量探索中提炼可复用推理技能。模型无需从头思考,而是检索相关模式,从而减少推理令牌数量并提升编程和数学任务的准确率。

2026年4月24日,ArXiv上发表了论文**《Thinking with Reasoning Skills: Fewer Tokens, More Accuracy》,该论文已被第64届计算语言学协会年会(ACL 2026)工业赛道录用。作者包括Guangxiang Zhao、Qilong Shi、Xusen Xiao、Xiangzheng Zhang、Tong Yang和Lin Sun**。

本文针对现代推理模型生成中一个众所周知的问题:生成思维链时消耗大量令牌,直接影响生产环境中推理调用的延迟和成本。

作者提出了什么方案?

与传统范式中推理模型每次从头生成思维链不同,作者提出模型检索可复用的推理模式——「推理技能」——来自预先构建的知识库。

这些技能通过对较难任务进行大量探索来提炼:模型生成大量推理轨迹,再从中抽象出结构化模式,作为「推理模板」。推理新问题时,系统识别相关技能并将其作为起点。

结果是双重优势——减少令牌消耗(因为模型无需从头构建完整逻辑结构)和提升准确率(因为使用的是已被证明有效的模式)。

这与RAG或上下文学习有何不同?

乍看之下,该方法类似于检索增强生成(RAG),但区别至关重要:RAG检索的是事实或文档,而本文检索的是抽象的结构化推理模式

它也不同于少样本示例的上下文学习。少样本提示为模型提供具体的已解决任务示例,而推理技能代表的是通用元知识——处理某类问题的方式,不含具体数字或输入值。

作者认为这更接近于人类专家解决已知类型问题的方式:不从头重新思考,而是识别模式并应用经过验证的解题结构。

在哪些任务上进行了评估?

本文聚焦于编程和数学推理,这是当今生产环境中推理模型最常用的两个领域。作者证明,检索技能在两个维度上均超越从头推理的传统方式——令牌消耗和最终答案准确率。

具体数值结果详见论文全文,但核心论断具有定性意义:该方法推进了效率的帕累托前沿,使模型能够同时更经济且更准确

这对开发团队意味着什么?

OpenAI GPT-5.5、Anthropic Opus 4.7以及同日发布的DeepSeek V4等推理模型,其令牌消耗通常是非推理模型的3到10倍。这直接影响聊天机器人、Copilot工具和智能体系统的运营成本。

同时降低令牌数量并提升准确率的方法在文献中十分罕见——大多数优化都需要在两者之间取舍。如果结果能在独立实验中得到复现,预计将集成到下一代生产推理模型中,很可能通过分层智能体框架实现。

对于面向企业用户构建AI Copilot工具的团队而言——每次推理模型调用都成本高昂——此类技术具有潜在的革命性意义。ACL工业赛道的录用证明该论文具有直接的工业应用价值,而非仅限于学术价值。

🤖

本文由人工智能基于一手来源生成。