AMD:MI355X上的MXFP4/MXFP6混合精度量化——吞吐量最高提升29%
AMD在Instinct MI355X加速器上展示了W_MXFP4_A_MXFP6混合精度量化技术,与BF16基准相比吞吐量最高提升29%,同时保持接近FP8标准的精度,使用vLLM框架进行生产推理。
本文由人工智能基于一手来源生成。
AMD MI355X与新量化策略
AMD公布了W_MXFP4_A_MXFP6量化的测试结果——这是一种使用4位权重和6位激活值的混合精度技术——在其Instinct MI355X AI加速器上进行了演示。目标是在推理速度和数值精度之间取得平衡,使用vLLM框架进行生产部署。
实际吞吐量提升了多少?
在Llama-3.1-8B模型上,W_MXFP4_A_MXFP6方案相比BF16基准吞吐量提升29%。在更大的Qwen3.6-27B模型上提升幅度为27%。两项结果均优于纯MXFP4方案,后者存在较大的精度损失。
精度:速度与准确性的权衡
精度保持接近FP8标准,远优于纯MXFP4。在Llama-3.1-8B的GSM8K基准测试中,混合精度达到76.42%——显著优于纯MXFP4的62.55%,但略低于FP8的80.44%。Qwen3.6-27B在AIME26基准上也呈现类似趋势:混合精度85.8%,FP8为86.7%,纯MXFP4仅为80.0%。
延迟:TTFT降低超过一秒
Llama-3.1-8B上的TTFT从6.409毫秒降至5.159毫秒,改善约1.25秒。对于拥有大量并发请求的生产系统,延迟的降低将直接改善用户体验。
结论:适合生产环境的实用权衡方案
MI355X上的W_MXFP4_A_MXFP6定位为成熟的生产推理解决方案:吞吐量接近纯MXFP4,精度接近FP8——无需在两者之间做出取舍。AMD由此直接与NVIDIA在H100/H200架构上的FP8推理形成竞争,在ROCm生态系统内为已使用AMD硬件或希望避免GPU基础设施单一供应商依赖的企业提供替代方案。
常见问题
- 什么是混合精度量化,为什么它很重要?
- 混合精度量化是一种AI模型压缩技术,神经网络的权重和激活值以不同数值格式存储——例如4位权重和6位激活值——从而减少内存占用并加速推理,同时将精度损失降至最低。
- 什么是TTFT,MI355X上降低了多少?
- TTFT(首个令牌生成时间)衡量从发送请求到生成第一个令牌的延迟。在Llama-3.1-8B模型上,AMD通过MXFP4/MXFP6方案将TTFT从6.409毫秒降至5.159毫秒。