AMD Eagle3与Quark FP8:推测性解码在MI355X上实现最高2.00倍吞吐量
AMD ROCm团队于2026年7月3日发布了Eagle3推测性解码在AMD硬件上的生产应用详情。Eagle3多层方法、vLLM后端和AMD Quark FP8量化的组合,在AMD Instinct MI355X上为Kimi-K2.5实现1.69倍至2.00倍的吞吐量提升,为MiniMax-M2.5实现1.38倍至1.79倍的提升,且输出质量无损失。
本文由人工智能基于一手来源生成。
AMD ROCm团队于2026年7月3日发布了Eagle3推测性解码在AMD GPU加速器上的生产应用详细说明。Eagle3方法、vLLM推理框架和AMD Quark量化工具的组合,在AMD Instinct MI355X上为Kimi-K2.5实现最高**2.00×**的吞吐量提升,并在数学上保证输出token质量不损失。该文档还记录了此前阻止在vLLM中同时激活Eagle3和AITER MLA注意力机制的关键技术障碍的解决方案。
Eagle3如何在不损失质量的情况下加速推理?
Eagle3是一种无损推理加速技术,可保持目标模型精确的输出分布。标准自回归LLM逐个token生成,在无法并行利用的顺序前向传播中进行。Eagle3通过引入较小的草稿模型打破了这种顺序性:草稿模型一次提出多个候选token,目标模型在一次联合前向传播中验证所有提议的token。目标模型接受的token包含在输出中;被拒绝的token对该位置强制执行正常解码。这一数学保证意味着Eagle3永远不会改变输出分布——加速纯粹通过减少目标模型前向传播次数来实现。
Eagle3与早期推测性方法的关键创新在于在多层特征上训练草稿模型。与草稿模型只观察表示的最后一层不同,Eagle3整合了目标模型的低层、中层和高层语义特征。高层承载抽象语义,中层承载句法结构,低层承载词汇模式。通过组合所有三个层次,草稿模型比简单方法实现更高的提议token接受率。更高的接受率直接转化为更大的加速,因为目标模型较少需要执行完整的纠正前向传播。
Kimi-K2.5和MiniMax-M2.5在AMD Instinct MI355X上的表现
生产加速使用InferenceX基准测试套件和ROCm软件栈在AMD Instinct MI355X GPU上的两个前沿模型上测量。
Kimi-K2.5(MXFP4精度目标模型)使用两种类型的Eagle3草稿模型测试。BF16 Eagle3草稿在1K/1K工作负载(1024输入token、1024输出token)下,在4到64个并发请求的并发级别中实现1.69×至1.90×的吞吐量系数。由AMD Quark量化的FP8 Eagle3草稿略优于BF16版本:1.76×至2.00×,在并发级别4时达到最大2.00×。
MiniMax-M2.5使用BF16 Eagle3草稿模型在同一MI355X硬件上的相同并发级别中实现**1.38×至1.79×**的吞吐量系数。加速随并发级别降低而增大,这与推测性解码的理论行为一致:在较低并发时,批量验证相对于前向传播成本带来的相对节省更大。
AMD Quark与KV缓存不兼容问题的解决
本文的核心贡献不仅仅是将Eagle3应用于AMD硬件——还有解决根本技术障碍。vLLM AITER MLA后端和Eagle3推测性解码存在KV缓存块大小参数不兼容的问题,阻止了两者的同时激活而不降低性能。AITER MLA在长上下文上带来注意力效率,而Eagle3加速顺序token生成——理论上组合理想,但技术上受阻。
AMD工程师解决了这一不兼容问题,使两种优化能够协同工作,无需任何配置妥协。生产配置使用ROCm堆栈、带AITER MLA后端的vLLM和Eagle3草稿模型,无需任何特殊变通措施。
使用AMD Quark量化工具,Kimi-K2.5 Eagle3草稿模型被量化为FP8精度,LM head层保持较高精度以确保稳定性。FP8草稿模型不仅占用更少GPU显存,在测量中还略优于BF16版本。这一发现表明FP8草稿模型的量化噪声在此上下文中不会降低token接受率——或者说对于给定的模型和工作负载在统计上是中性的。所有生产配置的目标硬件为AMD Instinct MI350X和MI355X加速器。研究表明Eagle3与FP8量化的组合并非速度与质量之间的权衡,而是在两方面同时改善:较小的草稿模型显存占用为目标模型保留更多HBM容量,而推测性解码减少了每个生成token的昂贵前向传播总数。
常见问题
- Eagle3如何在不降低质量的情况下加速推理?
- Eagle3使用较小的草稿模型一次提出多个候选token,目标模型在一次前向传播中验证所有提议的token。被拒绝的token强制执行正常解码,因此输出分布在数学上与原始分布相同——不存在质量损失。
- AMD Quark为Eagle3带来了什么?
- AMD Quark将Kimi-K2.5草稿模型量化为FP8精度,LM head保持较高精度。FP8草稿模型占用更少GPU显存,在测量中略优于BF16版本,在MI355X上实现最高2.00倍吞吐量。
- 在哪些模型和硬件上展示了加速效果?
- Kimi-K2.5(MXFP4目标)实现1.69倍至2.00倍吞吐量,MiniMax-M2.5(BF16)实现1.38倍至1.79倍,均在AMD Instinct MI355X上使用ROCm堆栈和vLLM后端(配合AITER MLA注意力机制)测量。