全部 🤖 模型 🚀 创业公司 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🟢 🏥 实践应用 2026年4月19日星期日 · 2 分钟阅读

RACER：无需训练的方法，结合检索与logits草稿策略将LLM推理速度翻倍

编辑插图：并行token流通过验证通道加速流动

为什么重要

RACER是一种无需训练即可加速大型语言模型的方法，结合基于检索和基于logits的草稿策略进行推测解码。相比自回归解码实现超过2倍加速，超越了所有此前的无训练方法，并被ACL 2026 Findings录用。已在Spec-Bench、HumanEval和MGSM-ZH基准上进行测试。

什么是推测解码，为什么重要？

推测解码是一种加速大型语言模型的技术，其中较小、较快的「草稿」模型一次性提议几个未来token，然后大型主模型在一次前向传递中验证它们。如果提议正确，主模型跳过大部分自回归生成步骤——从而在不损失质量的情况下实现加速。

问题在于草稿模型的质量限制了加速效果：如果草稿经常出错，验证就会拒绝，收益就会消失。传统方法要么需要训练额外的草稿模型，要么需要复杂的启发式方法。

RACER如何工作？

RACER（检索增强上下文快速推测解码）结合了两种互补的草稿策略：

基于检索的草稿 — 对于常规或出现在训练数据中的回答部分，RACER从语料库中检索相似序列并将其用作草稿。作者称之为「可靠锚点」——对于可预测的片段，检索提供准确的提议。
基于logits的草稿 — 对于更具创意或不太可预测的部分，RACER使用模型自身的logit概率生成草稿。作者称之为「灵活外推」——适用于检索不可靠的情况。

关键在于整个方法无需任何额外训练——直接应用于现有模型即可立即获得加速。

实际快了多少？

在三个基准测试上结果一致：

Spec-Bench： 相比自回归基线超过2倍加速
HumanEval（代码生成）：超过2倍加速
MGSM-ZH（中文数学）：超过2倍加速

RACER超越了所有此前的无训练推测解码方法，包括单独使用基于检索和基于logits方法的情况。组合方式带来更大提升，因为它覆盖了不同的生成模式。

开发者可以立即利用什么？

RACER已被ACL 2026 Findings录用，这意味着代码很可能在官方仓库中提供。对于运行自有LLM推理服务器（vLLM、llama.cpp、TensorRT-LLM）的工程师，这种方法意味着：

2倍更快的生成，无需重新配置模型
零训练成本 — 不需要LoRA、RLHF或额外草稿模型
与现有量化和优化的兼容性

对于生产LLM工作负载（客户支持、代码助手、批量推理），2倍加速直接意味着在相同吞吐量下GPU成本减半。

🤖

本文由人工智能基于一手来源生成。

来源

arXiv：RACER — 检索增强上下文快速推测解码 ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🟡 2026-04-24

Anthropic与NEC共建日本最大AI工程师队伍——Claude服务NEC 3万名员工

🟡 2026-04-24

AWS：多模态生物学基础模型将药物发现成本降低50%，诊断效率提升90%

🟢 2026-04-24

CNCF：基础设施工程师借助AI智能体在30分钟内迁移60余个Kubernetes资源

← 返回首页