Eagle3如何在不降低质量的情况下加速推理？

Eagle3使用较小的草稿模型一次提出多个候选token，目标模型在一次前向传播中验证所有提议的token。被拒绝的token强制执行正常解码，因此输出分布在数学上与原始分布相同——不存在质量损失。

AMD Quark为Eagle3带来了什么？

AMD Quark将Kimi-K2.5草稿模型量化为FP8精度，LM head保持较高精度。FP8草稿模型占用更少GPU显存，在测量中略优于BF16版本，在MI355X上实现最高2.00倍吞吐量。

在哪些模型和硬件上展示了加速效果？

Kimi-K2.5（MXFP4目标）实现1.69倍至2.00倍吞吐量，MiniMax-M2.5（BF16）实现1.38倍至1.79倍，均在AMD Instinct MI355X上使用ROCm堆栈和vLLM后端（配合AITER MLA注意力机制）测量。

AMD Eagle3：MI355X上的推测性解码

AMD ROCm团队于2026年7月3日发布了Eagle3推测性解码在AMD硬件上的生产应用详情。Eagle3多层方法、vLLM后端和AMD Quark FP8量化的组合，在AMD Instinct MI355X上为Kimi-K2.5实现1.69倍至2.00倍的吞吐量提升，为MiniMax-M2.5实现1.38倍至1.79倍的提升，且输出质量无损失。

AMD ROCm团队于2026年7月3日发布了Eagle3推测性解码在AMD GPU加速器上的生产应用详细说明。Eagle3方法、vLLM推理框架和AMD Quark量化工具的组合，在AMD Instinct MI355X上为Kimi-K2.5实现最高**2.00×**的吞吐量提升，并在数学上保证输出token质量不损失。该文档还记录了此前阻止在vLLM中同时激活Eagle3和AITER MLA注意力机制的关键技术障碍的解决方案。

Eagle3如何在不损失质量的情况下加速推理？

Eagle3是一种无损推理加速技术，可保持目标模型精确的输出分布。标准自回归LLM逐个token生成，在无法并行利用的顺序前向传播中进行。Eagle3通过引入较小的草稿模型打破了这种顺序性：草稿模型一次提出多个候选token，目标模型在一次联合前向传播中验证所有提议的token。目标模型接受的token包含在输出中；被拒绝的token对该位置强制执行正常解码。这一数学保证意味着Eagle3永远不会改变输出分布——加速纯粹通过减少目标模型前向传播次数来实现。

Eagle3与早期推测性方法的关键创新在于在多层特征上训练草稿模型。与草稿模型只观察表示的最后一层不同，Eagle3整合了目标模型的低层、中层和高层语义特征。高层承载抽象语义，中层承载句法结构，低层承载词汇模式。通过组合所有三个层次，草稿模型比简单方法实现更高的提议token接受率。更高的接受率直接转化为更大的加速，因为目标模型较少需要执行完整的纠正前向传播。

Kimi-K2.5和MiniMax-M2.5在AMD Instinct MI355X上的表现

生产加速使用InferenceX基准测试套件和ROCm软件栈在AMD Instinct MI355X GPU上的两个前沿模型上测量。

Kimi-K2.5（MXFP4精度目标模型）使用两种类型的Eagle3草稿模型测试。BF16 Eagle3草稿在1K/1K工作负载（1024输入token、1024输出token）下，在4到64个并发请求的并发级别中实现1.69×至1.90×的吞吐量系数。由AMD Quark量化的FP8 Eagle3草稿略优于BF16版本：1.76×至2.00×，在并发级别4时达到最大2.00×。

MiniMax-M2.5使用BF16 Eagle3草稿模型在同一MI355X硬件上的相同并发级别中实现**1.38×至1.79×**的吞吐量系数。加速随并发级别降低而增大，这与推测性解码的理论行为一致：在较低并发时，批量验证相对于前向传播成本带来的相对节省更大。

AMD Quark与KV缓存不兼容问题的解决

本文的核心贡献不仅仅是将Eagle3应用于AMD硬件——还有解决根本技术障碍。vLLM AITER MLA后端和Eagle3推测性解码存在KV缓存块大小参数不兼容的问题，阻止了两者的同时激活而不降低性能。AITER MLA在长上下文上带来注意力效率，而Eagle3加速顺序token生成——理论上组合理想，但技术上受阻。

AMD工程师解决了这一不兼容问题，使两种优化能够协同工作，无需任何配置妥协。生产配置使用ROCm堆栈、带AITER MLA后端的vLLM和Eagle3草稿模型，无需任何特殊变通措施。

使用AMD Quark量化工具，Kimi-K2.5 Eagle3草稿模型被量化为FP8精度，LM head层保持较高精度以确保稳定性。FP8草稿模型不仅占用更少GPU显存，在测量中还略优于BF16版本。这一发现表明FP8草稿模型的量化噪声在此上下文中不会降低token接受率——或者说对于给定的模型和工作负载在统计上是中性的。所有生产配置的目标硬件为AMD Instinct MI350X和MI355X加速器。研究表明Eagle3与FP8量化的组合并非速度与质量之间的权衡，而是在两方面同时改善：较小的草稿模型显存占用为目标模型保留更多HBM容量，而推测性解码减少了每个生成token的昂贵前向传播总数。

AMD Eagle3与Quark FP8：推测性解码在MI355X上实现最高2.00倍吞吐量

Eagle3如何在不损失质量的情况下加速推理？

Kimi-K2.5和MiniMax-M2.5在AMD Instinct MI355X上的表现

AMD Quark与KV缓存不兼容问题的解决

常见问题

来源

相关新闻