AMD ROCm:EAGLE3推测解码在MI325X上将Kimi-K2.5加速33%
AMD ROCm团队在8×Instinct MI325X上演示了EAGLE3推测解码技术,使用Kimi-K2.5模型,输出吞吐量提升33%,中位令牌间延迟降低58%,GSM8K基准测试精度无损失。
本文由人工智能基于一手来源生成。
EAGLE3将基于树的推测解码引入AMD硬件
AMD ROCm团队公布了在8×AMD Instinct MI325X GPU(每卡256 GB HBM,架构gfx942)集群上实现EAGLE3算法的推理加速结果。测试模型为月之暗面(Moonshot AI)的Kimi-K2.5——一个拥有497 GB参数、以W4A8格式(INT4权重、INT8激活)量化的混合专家大模型。
推测解码是一种技术:较小、较快的草稿模型提前预测多个候选后续词元,主(大)模型随后在一次前向传播中并行验证,而非逐词元生成。EAGLE3在此基础上引入基于树的方法:同时提出多个假设构成的候选树,大幅提高主模型一次性接受较长序列的概率,避免重复计算。
测试结果如何?
并发量为40个同时请求时的测量结果:
- 输出吞吐量: 672 → 895 tok/s,增幅 +33.1%
- 解码延迟(TPOT): 42.73 → 27.41 ms,降幅 −35.9%
- 中位词元间延迟(ITL): 27.98 → 11.75 ms,降幅 −58.0%
未使用EAGLE3时,每个词元平均等待近28 ms;使用后降至不足12 ms——超过减半。GSM8K数学基准测试精度保持在0.93以上,无回归。
这对AMD生态系统为何重要?
结果表明,AMD MI325X不仅在纸面上是NVIDIA硬件的替代品,而且能够通过ROCm软件栈的优化为生产级MoE模型提供实质加速——无需更换硬件,也不损失模型质量。
常见问题
- 什么是推测解码,为什么它能加速文本生成?
- 推测解码是一种技术,由较小的草稿模型快速预测多个后续词元,再由大模型并行验证,而非逐个生成,从而减少词元间的等待时间。
- EAGLE3的加速是否以牺牲模型精度为代价?
- 不会——GSM8K基准测试得分保持在0.93以上,说明Kimi-K2.5在显著降低延迟的同时保持了完整精度。