基础设施

测试时计算

在推理阶段投入更多算力——让模型在作答前进行更长时间的思考——以提升准确率,是现代推理模型的基础。

测试时计算test-time compute)是指在推理阶段投入更多算力——让模型在给出最终答案前生成更长、更审慎的中间推理步骤——以提升解答质量的做法,也称推理时扩展或测试时扩展。

传统的扩展是增大模型与训练数据。测试时计算开辟了第二条轴:在同一个已训练模型上,允许每次提问进行更多的「思考」。其实现方式包括更长的思维链、采样多个候选答案并择优(自一致性、验证),或在解答树上进行搜索。经验表明,投入更多算力往往能在数学、代码、逻辑等难题上提升准确率。

这一范式随 OpenAI o1(2024 年)进入主流,并构成当今推理模型的基础。代价是成本与延迟:一次作答可能消耗数倍的 token,耗时数秒到数分钟。在 2025 至 2026 年间,收益在超过某一点后趋于饱和,因此各实验室正研究按任务难度自适应地分配算力。

来源

另见