🤖 24 AI
🟡 📦 开源 2026年4月21日星期二 · 2 分钟阅读

AMD FLy:无需训练的推测解码在Llama-3.3-405B上实现5.21×加速,精度超99%

推测解码的编辑插图——草稿模型提议令牌,目标模型并行验证

为什么重要

AMD FLy是一种全新的免训练推测解码方法,通过语义接受草稿令牌,在Llama-3.3-405B上实现4.80×至5.21×加速,在Llama-3.1-70B上实现2.74×加速,精度超过99%,无需对模型进行额外训练。

什么是AMD FLy?

AMD研究人员于2026年4月20日推出了FLy,一种无需额外模型训练的全新推测解码方法。推测解码是一种技术,其中较小更快的”草稿”模型预先预测接下来的几个令牌,较大的”目标”模型并行验证它们——如果正确,生成速度就会加快。

迄今为止,最好的方法如EAGLE-3需要特殊的草稿模型训练阶段,这既昂贵又复杂。FLy打破了这一障碍:无需训练即可超越需要训练的方法。

FLy如何接受”错误”的令牌?

关键创新在于FLy接受语义上正确的草稿令牌,即使它们与目标模型的预测不同。经典推测解码需要精确匹配——令牌必须与目标模型自己生成的完全相同。FLy通过两步验证放宽了这一规则:

  • 熵门控——检测每个令牌的模糊程度,决定何时可以接受不一致而不影响输出质量
  • 延迟窗口机制——临时接受不一致,然后跟踪接下来的6个令牌进行追溯验证;如果上下文发展正确,令牌保留,否则回滚

这种逻辑使模型能够通过更多草稿预测,直接带来更高的加速。

Llama模型的实际结果如何?

AMD展示的基准结果令人印象深刻:

  • Llama-3.3-405B — 加速4.80×至5.21×
  • Llama-3.1-70B — 加速2.74×
  • 相对于无推测解码输出,精度超过99%

在Llama-3.3 Instruct基准测试中,FLy超越了EAGLE-3——目前需要训练的领先方法。这尤其重要,因为这意味着没有训练草稿模型资源的小团队可以取得比拥有该基础设施的团队更好的结果。

这对AMD生态系统为何重要?

AMD在AI软件栈方面长期落后于NVIDIA,而ROCm优化对竞争力至关重要。FLy表明AMD研究团队正在研究针对其硬件的特定技术——而不仅仅是移植NVIDIA的想法。

实际上,任何已经在AMD MI300X或类似GPU上提供Llama模型服务的人都可以获得3-5×加速,无需重新训练、无需更改模型、输出质量不打折扣。对于生产系统来说,这是直接的成本节省。

对开源推理的影响

FLy之所以重要,是因为它降低了高性能推理的门槛——不再需要经过专门训练的草稿模型来实现最先进的速度。对于在自有基础设施中托管Llama等模型的开源社区,这意味着:

  • 更易于使用大型模型进行实验(405B变得可及)
  • 自托管部署中每次查询的成本更低
  • 对于没有资源进行EAGLE式训练的团队,提供了替代方案

如果该方法作为ROCm栈中的开源实现发布,可能在2026年成为AMD推理部署的标准。

🤖

本文由人工智能基于一手来源生成。