RACER:无需训练的方法,结合检索与logits草稿策略将LLM推理速度翻倍
为什么重要
RACER是一种无需训练即可加速大型语言模型的方法,结合基于检索和基于logits的草稿策略进行推测解码。相比自回归解码实现超过2倍加速,超越了所有此前的无训练方法,并被ACL 2026 Findings录用。已在Spec-Bench、HumanEval和MGSM-ZH基准上进行测试。
什么是推测解码,为什么重要?
推测解码是一种加速大型语言模型的技术,其中较小、较快的「草稿」模型一次性提议几个未来token,然后大型主模型在一次前向传递中验证它们。如果提议正确,主模型跳过大部分自回归生成步骤——从而在不损失质量的情况下实现加速。
问题在于草稿模型的质量限制了加速效果:如果草稿经常出错,验证就会拒绝,收益就会消失。传统方法要么需要训练额外的草稿模型,要么需要复杂的启发式方法。
RACER如何工作?
RACER(检索增强上下文快速推测解码)结合了两种互补的草稿策略:
-
基于检索的草稿 — 对于常规或出现在训练数据中的回答部分,RACER从语料库中检索相似序列并将其用作草稿。作者称之为「可靠锚点」——对于可预测的片段,检索提供准确的提议。
-
基于logits的草稿 — 对于更具创意或不太可预测的部分,RACER使用模型自身的logit概率生成草稿。作者称之为「灵活外推」——适用于检索不可靠的情况。
关键在于整个方法无需任何额外训练——直接应用于现有模型即可立即获得加速。
实际快了多少?
在三个基准测试上结果一致:
- Spec-Bench: 相比自回归基线超过2倍加速
- HumanEval(代码生成):超过2倍加速
- MGSM-ZH(中文数学):超过2倍加速
RACER超越了所有此前的无训练推测解码方法,包括单独使用基于检索和基于logits方法的情况。组合方式带来更大提升,因为它覆盖了不同的生成模式。
开发者可以立即利用什么?
RACER已被ACL 2026 Findings录用,这意味着代码很可能在官方仓库中提供。对于运行自有LLM推理服务器(vLLM、llama.cpp、TensorRT-LLM)的工程师,这种方法意味着:
- 2倍更快的生成,无需重新配置模型
- 零训练成本 — 不需要LoRA、RLHF或额外草稿模型
- 与现有量化和优化的兼容性
对于生产LLM工作负载(客户支持、代码助手、批量推理),2倍加速直接意味着在相同吞吐量下GPU成本减半。
本文由人工智能基于一手来源生成。