什么是推测解码？

一种加速LLM推理的技术，其中较小的草稿模型快速生成候选令牌，而较大的目标模型在单次前向传播中并行验证它们，而不是顺序生成每个令牌。

Trainium上的推测解码能实现多大的加速？

对于解码密集型任务，令牌生成速度最高提升3倍，在具有可预测模式的结构化输出上改善最为显著。

这是亚马逊专为机器学习设计的定制芯片，与NVIDIA GPU竞争，旨在以更低的每令牌成本进行大型模型的训练和推理。

亚马逊云服务发布了在其自有Trainium芯片上实现推测解码的详细方案，展示了对于需要密集解码的工作负载，令牌生成速度可提升高达三倍。与vLLM框架的集成使这项技术可用于生产部署。

标准LLM推理在每次模型前向传播中生成一个令牌——这是一个对于长响应来说本质上很慢的顺序过程。推测解码（投机式解码）采用两个模型的不同方法：较小、较快的草稿模型预测下N个令牌，而较大、更精确的目标模型在单次前向传播中一次性验证所有令牌。

如果草稿模型预测正确——对于可预测的文本模式，这在很大比例的情况下会发生——系统在相同时间内生成N个令牌而不是一个。当草稿模型出错时，目标模型丢弃错误令牌并从最后一个正确的令牌继续。结果在质量上与大模型相同，但速度显著更快。

AWS Trainium是亚马逊专为机器学习设计的定制芯片，专注于更低成本，作为NVIDIA GPU的替代品。在Trainium上实现推测解码表明该技术不局限于NVIDIA生态系统——对于希望避免依赖单一硬件供应商的组织来说，这很重要。

与vLLM的结合——目前最流行的LLM服务开源框架——使解决方案切实可行。用户无需编写自己的推理代码；推测解码通过vLLM配置激活，Trainium NeuronX运行时负责协调草稿模型和目标模型。

结构化输出中具有可预测模式的场景获得最大改善——代码生成、JSON响应、模板化电子邮件或报告。在这些场景中，草稿模型正确预测更高比例的令牌，最大化加速效果。

对于创意写作或复杂推理，下一个令牌较难预测，加速效果较小——但与标准顺序方法相比仍然显著。