测试时计算

在推理阶段投入更多算力——让模型在作答前进行更长时间的思考——以提升准确率，是现代推理模型的基础。

测试时计算（test-time compute）是指在推理阶段投入更多算力——让模型在给出最终答案前生成更长、更审慎的中间推理步骤——以提升解答质量的做法，也称推理时扩展或测试时扩展。

传统的扩展是增大模型与训练数据。测试时计算开辟了第二条轴：在同一个已训练模型上，允许每次提问进行更多的「思考」。其实现方式包括更长的思维链、采样多个候选答案并择优（自一致性、验证），或在解答树上进行搜索。经验表明，投入更多算力往往能在数学、代码、逻辑等难题上提升准确率。

这一范式随 OpenAI o1（2024 年）进入主流，并构成当今推理模型的基础。代价是成本与延迟：一次作答可能消耗数倍的 token，耗时数秒到数分钟。在 2025 至 2026 年间，收益在超过某一点后趋于饱和，因此各实验室正研究按任务难度自适应地分配算力。

来源