arXiv:2606.19808:SEVRA通过选择性验证可节省模型推理最多91%的token
SEVRA是arXiv:2606.19808论文描述的一种控制器,用于决定何时验证模型响应、何时接受初始估计,从而实现预算感知推理。在GSM8K基准测试上,SEVRA将准确率从93.4%提升至94.5%,同时减少91.2%的验证token;在MATH-500上,以26.8%的token节省实现76.3%的准确率。
本文由人工智能基于一手来源生成。
论文 arXiv:2606.19808 提出了 SEVRA,一种用于大型语言模型预算感知推理的控制器。验证是模型对其响应进行额外检查的步骤,可提高可靠性,但会消耗token和时间。SEVRA 决定何时验证是值得的,何时接受解算器的初始估计就足够了。
数字化的结果
在 GSM8K(小学数学题)基准测试上,SEVRA 将准确率从 93.4%提升至94.5%,同时减少了高达 91.2%的验证token。在更难的 MATH-500 上,与始终验证的方法相比,节省 26.8%的token,实现 76.3%的准确率。比较结果表明,选择性验证不仅节省资源,还能略微提高准确率。
为何重要
SEVRA 还将有害修改的比例从 2.2%降至1.0%——即验证破坏已正确答案的情况。作者强调,在引入昂贵的验证策略之前,应先优化基础推理能力。对于在成本约束下运行的系统,选择性验证在成本与可靠性之间提供了切实可行的平衡点。
常见问题
- SEVRA做什么?
- SEVRA是一种控制器,决定何时验证模型响应、何时接受初始估计,以便在推理时节省资源。
- 节省了多少资源?
- 在GSM8K上,SEVRA减少91.2%的验证token,准确率从93.4%提升至94.5%;在MATH-500上,节省26.8%的token,准确率达76.3%。
- 是否减少了对正确答案的有害修改?
- 是的,有害修改比例从2.2%降至1.0%。