模型
推理模型(Reasoning Model)
经过专门训练的大型语言模型(LLM),在输出最终答案前会先生成详细的逐步思维链推理过程,以消耗更多推理时间为代价,在数学、编程与科学推断等复杂任务上取得更高准确率。
**推理模型(Reasoning Model)**是一种大型语言模型,通常通过在可验证问题上进行强化学习训练,在回答之前花费更多算力进行「思考」。模型内部会生成一系列中间步骤(有时称为「思考词元」),这些步骤通常对用户不可见,最终输出简洁的答案。
这一范式随 OpenAI o1(2024 年 9 月)进入主流视野,随后相继出现了 o3、DeepSeek R1、Anthropic Claude(扩展思考模式)、Google Gemini Thinking 和 Qwen QwQ。推理模型在数学、算法竞赛、科学推理和多步骤规划等领域表现突出——这些领域具有明确的验证标准,模型可以依据最终答案的正确性获得奖励,而无需关注中间推理过程。
这种方式有时被称为推理时算力扩展(Test-Time Compute Scaling):不是(仅仅)增大模型规模,而是让模型在推理时思考更长时间。实验表明,将思考词元数量翻倍往往能显著提升困难问题的准确率,为预训练算力之外开辟了全新的扩展维度。
权衡之处:
- **成本:**输出词元数量是标准回答的 5 至 30 倍
- **延迟:**每次响应需数秒乃至数分钟
- **收益递减:**思考时间过长后准确率趋于平稳
- **领域选择性:**在逻辑、数学、代码上收益显著,在开放式写作上提升有限
截至 2026 年,各大主要实验室均同时提供「快速」和「推理」两类模型。如何为每个查询选择合适的模型——即模型路由——本身已成为一个独立的优化问题。