🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2606.19808:SEVRA通过选择性验证可节省模型推理最多91%的token

arXiv:2606.19808 ↗

编辑插图:选择快速估计和完整验证的开关

SEVRA是arXiv:2606.19808论文描述的一种控制器,用于决定何时验证模型响应、何时接受初始估计,从而实现预算感知推理。在GSM8K基准测试上,SEVRA将准确率从93.4%提升至94.5%,同时减少91.2%的验证token;在MATH-500上,以26.8%的token节省实现76.3%的准确率。

🤖

本文由人工智能基于一手来源生成。

论文 arXiv:2606.19808 提出了 SEVRA,一种用于大型语言模型预算感知推理的控制器。验证是模型对其响应进行额外检查的步骤,可提高可靠性,但会消耗token和时间。SEVRA 决定何时验证是值得的,何时接受解算器的初始估计就足够了。

数字化的结果

GSM8K(小学数学题)基准测试上,SEVRA 将准确率从 93.4%提升至94.5%,同时减少了高达 91.2%的验证token。在更难的 MATH-500 上,与始终验证的方法相比,节省 26.8%的token,实现 76.3%的准确率。比较结果表明,选择性验证不仅节省资源,还能略微提高准确率。

为何重要

SEVRA 还将有害修改的比例从 2.2%降至1.0%——即验证破坏已正确答案的情况。作者强调,在引入昂贵的验证策略之前,应先优化基础推理能力。对于在成本约束下运行的系统,选择性验证在成本与可靠性之间提供了切实可行的平衡点。

常见问题

SEVRA做什么?
SEVRA是一种控制器,决定何时验证模型响应、何时接受初始估计,以便在推理时节省资源。
节省了多少资源?
在GSM8K上,SEVRA减少91.2%的验证token,准确率从93.4%提升至94.5%;在MATH-500上,节省26.8%的token,准确率达76.3%。
是否减少了对正确答案的有害修改?
是的,有害修改比例从2.2%降至1.0%。