SEVRA：预算感知推理，节省高达91% token

SEVRA是arXiv:2606.19808论文描述的一种控制器，用于决定何时验证模型响应、何时接受初始估计，从而实现预算感知推理。在GSM8K基准测试上，SEVRA将准确率从93.4%提升至94.5%，同时减少91.2%的验证token；在MATH-500上，以26.8%的token节省实现76.3%的准确率。

论文 arXiv:2606.19808 提出了 SEVRA，一种用于大型语言模型预算感知推理的控制器。验证是模型对其响应进行额外检查的步骤，可提高可靠性，但会消耗token和时间。SEVRA 决定何时验证是值得的，何时接受解算器的初始估计就足够了。

数字化的结果

在 GSM8K（小学数学题）基准测试上，SEVRA 将准确率从 93.4%提升至94.5%，同时减少了高达 91.2%的验证token。在更难的 MATH-500 上，与始终验证的方法相比，节省 26.8%的token，实现 76.3%的准确率。比较结果表明，选择性验证不仅节省资源，还能略微提高准确率。

为何重要

SEVRA 还将有害修改的比例从 2.2%降至1.0%——即验证破坏已正确答案的情况。作者强调，在引入昂贵的验证策略之前，应先优化基础推理能力。对于在成本约束下运行的系统，选择性验证在成本与可靠性之间提供了切实可行的平衡点。

常见问题

SEVRA做什么？

SEVRA是一种控制器，决定何时验证模型响应、何时接受初始估计，以便在推理时节省资源。

节省了多少资源？

在GSM8K上，SEVRA减少91.2%的验证token，准确率从93.4%提升至94.5%；在MATH-500上，节省26.8%的token，准确率达76.3%。

是否减少了对正确答案的有害修改？

是的，有害修改比例从2.2%降至1.0%。

arXiv:2606.19808：SEVRA通过选择性验证可节省模型推理最多91%的token

数字化的结果

为何重要

常见问题

来源

相关新闻