在这个上下文中，"免训练"是什么意思？

这意味着FLy不需要对草稿模型或目标模型进行额外训练——可以直接应用于已训练好的Llama，无需任何微调。EAGLE-3等经典方法需要特殊的草稿模型训练阶段，这耗费时间和GPU资源。

精确匹配与语义接受有何区别？

经典推测解码只接受与目标模型生成的令牌完全匹配的草稿令牌。FLy还接受语义上正确但不完全相同的令牌——从而通过更多草稿预测，加速生成过程。

所有在AMD硬件上提供大型Llama模型服务的人——从研究实验室到生产推理提供商。3-5×的加速意味着每个令牌的成本和响应时间成比例降低，无需重新训练。

AMD研究人员于2026年4月20日推出了FLy，一种无需额外模型训练的全新推测解码方法。推测解码是一种技术，其中较小更快的”草稿”模型预先预测接下来的几个令牌，较大的”目标”模型并行验证它们——如果正确，生成速度就会加快。

迄今为止，最好的方法如EAGLE-3需要特殊的草稿模型训练阶段，这既昂贵又复杂。FLy打破了这一障碍：无需训练即可超越需要训练的方法。

关键创新在于FLy接受语义上正确的草稿令牌，即使它们与目标模型的预测不同。经典推测解码需要精确匹配——令牌必须与目标模型自己生成的完全相同。FLy通过两步验证放宽了这一规则：

这种逻辑使模型能够通过更多草稿预测，直接带来更高的加速。

AMD展示的基准结果令人印象深刻：

在Llama-3.3 Instruct基准测试中，FLy超越了EAGLE-3——目前需要训练的领先方法。这尤其重要，因为这意味着没有训练草稿模型资源的小团队可以取得比拥有该基础设施的团队更好的结果。

AMD在AI软件栈方面长期落后于NVIDIA，而ROCm优化对竞争力至关重要。FLy表明AMD研究团队正在研究针对其硬件的特定技术——而不仅仅是移植NVIDIA的想法。

实际上，任何已经在AMD MI300X或类似GPU上提供Llama模型服务的人都可以获得3-5×加速，无需重新训练、无需更改模型、输出质量不打折扣。对于生产系统来说，这是直接的成本节省。

FLy之所以重要，是因为它降低了高性能推理的门槛——不再需要经过专门训练的草稿模型来实现最先进的速度。对于在自有基础设施中托管Llama等模型的开源社区，这意味着：

如果该方法作为ROCm栈中的开源实现发布，可能在2026年成为AMD推理部署的标准。