AMD EAGLE3：Kimi-K2.5在MI325X上快33%

AMD ROCm团队在8×Instinct MI325X上演示了EAGLE3推测解码技术，使用Kimi-K2.5模型，输出吞吐量提升33%，中位令牌间延迟降低58%，GSM8K基准测试精度无损失。

EAGLE3将基于树的推测解码引入AMD硬件

AMD ROCm团队公布了在8×AMD Instinct MI325X GPU（每卡256 GB HBM，架构gfx942）集群上实现EAGLE3算法的推理加速结果。测试模型为月之暗面（Moonshot AI）的Kimi-K2.5——一个拥有497 GB参数、以W4A8格式（INT4权重、INT8激活）量化的混合专家大模型。

推测解码是一种技术：较小、较快的草稿模型提前预测多个候选后续词元，主（大）模型随后在一次前向传播中并行验证，而非逐词元生成。EAGLE3在此基础上引入基于树的方法：同时提出多个假设构成的候选树，大幅提高主模型一次性接受较长序列的概率，避免重复计算。

测试结果如何？

并发量为40个同时请求时的测量结果：

输出吞吐量： 672 → 895 tok/s，增幅 +33.1%
解码延迟（TPOT）： 42.73 → 27.41 ms，降幅 −35.9%
中位词元间延迟（ITL）： 27.98 → 11.75 ms，降幅 −58.0%

未使用EAGLE3时，每个词元平均等待近28 ms；使用后降至不足12 ms——超过减半。GSM8K数学基准测试精度保持在0.93以上，无回归。

这对AMD生态系统为何重要？

结果表明，AMD MI325X不仅在纸面上是NVIDIA硬件的替代品，而且能够通过ROCm软件栈的优化为生产级MoE模型提供实质加速——无需更换硬件，也不损失模型质量。

常见问题

什么是推测解码，为什么它能加速文本生成？

推测解码是一种技术，由较小的草稿模型快速预测多个后续词元，再由大模型并行验证，而非逐个生成，从而减少词元间的等待时间。

EAGLE3的加速是否以牺牲模型精度为代价？

不会——GSM8K基准测试得分保持在0.93以上，说明Kimi-K2.5在显著降低延迟的同时保持了完整精度。

AMD ROCm：EAGLE3推测解码在MI325X上将Kimi-K2.5加速33%

EAGLE3将基于树的推测解码引入AMD硬件

测试结果如何？

这对AMD生态系统为何重要？

常见问题

来源

相关新闻