推测解码

推测解码（speculative decoding）是一种加速推理的技术：让一个小而快的”草稿”模型一次性提出多个未来词元，再由大型目标模型在一次前向计算中并行验证。

大语言模型逐个生成词元，速度较慢，因为每一步都要完整经过整个网络。推测解码打破了这种串行瓶颈：成本低廉的草稿模型（通常是蒸馏版或较小的变体）猜测接下来的 3–8 个词元，目标模型则并行计算它们的概率。一种改进的拒绝采样规则会在猜测词元符合目标分布时予以接受，并纠正第一个不匹配处。关键在于，其输出与标准解码在数学上完全相同。

该方法由谷歌研究院的 Leviathan 等人于 2022 年提出，自 2024 年起已成为生产环境模型服务的标准做法，vLLM、NVIDIA TensorRT-LLM、SGLang 等均已支持。它通常带来 2–3 倍的加速（Medusa、EAGLE 等变体更高）且不损失质量，是最重要的延迟优化技术之一。

来源

另见