推理模型（Reasoning Model）

**推理模型（Reasoning Model）**是一种大型语言模型，通常通过在可验证问题上进行强化学习训练，在回答之前花费更多算力进行「思考」。模型内部会生成一系列中间步骤（有时称为「思考词元」），这些步骤通常对用户不可见，最终输出简洁的答案。

这一范式随 OpenAI o1（2024 年 9 月）进入主流视野，随后相继出现了 o3、DeepSeek R1、Anthropic Claude（扩展思考模式）、Google Gemini Thinking 和 Qwen QwQ。推理模型在数学、算法竞赛、科学推理和多步骤规划等领域表现突出——这些领域具有明确的验证标准，模型可以依据最终答案的正确性获得奖励，而无需关注中间推理过程。

这种方式有时被称为推理时算力扩展（Test-Time Compute Scaling）：不是（仅仅）增大模型规模，而是让模型在推理时思考更长时间。实验表明，将思考词元数量翻倍往往能显著提升困难问题的准确率，为预训练算力之外开辟了全新的扩展维度。

权衡之处：

**成本：**输出词元数量是标准回答的 5 至 30 倍
**延迟：**每次响应需数秒乃至数分钟
**收益递减：**思考时间过长后准确率趋于平稳
**领域选择性：**在逻辑、数学、代码上收益显著，在开放式写作上提升有限

截至 2026 年，各大主要实验室均同时提供「快速」和「推理」两类模型。如何为每个查询选择合适的模型——即模型路由——本身已成为一个独立的优化问题。

来源

另见