本文的主要发现是什么？

前沿模型的结果和排名在很大程度上取决于推理计算预算，因此固定预算评估会低估真实能力。

arXiv:2606.17930 — 推理计算量决定前沿模型基准测试排名

Q: 作者建议什么？

将模型能力作为推理时计算量的函数来报告，而非单一数字。

论文表明基准测试结果在很大程度上取决于测量协议：在软件、数学、医学和网络安全 7 项高难度测试上测试了 12 个前沿模型。更大的 token 预算显著提升了 FrontierMath、Humanity's Last Exam 和 TerminalBench 上的结果，而模型排名随推理计算预算的不同而不同。作者建议将能力作为推理时计算量的函数来报告，而非单一数字。

新预印本警告基准测试结果在很大程度上取决于测量协议，这对常见的前沿模型排行榜提出了质疑。

作者测试了什么？

该论文在软件、数学、医学和网络安全领域的 7 个高难度基准上测试了 12 个前沿模型。关键变量是推理计算量——模型在解决任务时可以消耗的计算量，即 token 预算。标准评估通常固定这一预算，但论文表明它恰恰是决定性因素。

更大的预算会改变什么？

更大的 token 预算在 FrontierMath、Humanity’s Last Exam、TerminalBench 和网络安全测试上显著提升结果。更重要的是，模型排名随预算不同而不同——在小预算下表现最好的模型在大预算下未必最好。因此，固定预算评估会系统性地低估真实能力。

这对模型评估为何重要？

作者建议将模型能力作为推理时计算量的函数来报告，而非单一数字。这一发现对安全和政策评估也具有参考意义：不控制计算预算的模型评估可能产生不可靠且具有误导性的排名。

arXiv:2606.17930: 基准测试结果取决于评估协议——推理计算量改变前沿模型排名

作者测试了什么？

更大的预算会改变什么？

这对模型评估为何重要？

常见问题

来源

相关新闻