基础设施
推测解码
一种推理加速技术:小型草稿模型一次性提出多个候选词元,由大模型并行验证接受,输出结果与标准解码完全一致。
推测解码(speculative decoding)是一种加速推理的技术:让一个小而快的”草稿”模型一次性提出多个未来词元,再由大型目标模型在一次前向计算中并行验证。
大语言模型逐个生成词元,速度较慢,因为每一步都要完整经过整个网络。推测解码打破了这种串行瓶颈:成本低廉的草稿模型(通常是蒸馏版或较小的变体)猜测接下来的 3–8 个词元,目标模型则并行计算它们的概率。一种改进的拒绝采样规则会在猜测词元符合目标分布时予以接受,并纠正第一个不匹配处。关键在于,其输出与标准解码在数学上完全相同。
该方法由谷歌研究院的 Leviathan 等人于 2022 年提出,自 2024 年起已成为生产环境模型服务的标准做法,vLLM、NVIDIA TensorRT-LLM、SGLang 等均已支持。它通常带来 2–3 倍的加速(Medusa、EAGLE 等变体更高)且不损失质量,是最重要的延迟优化技术之一。