AMD MI355X：MXFP4/MXFP6混合精度量化提升29%吞吐量

AMD在Instinct MI355X加速器上展示了W_MXFP4_A_MXFP6混合精度量化技术，与BF16基准相比吞吐量最高提升29%，同时保持接近FP8标准的精度，使用vLLM框架进行生产推理。

AMD MI355X与新量化策略

AMD公布了W_MXFP4_A_MXFP6量化的测试结果——这是一种使用4位权重和6位激活值的混合精度技术——在其Instinct MI355X AI加速器上进行了演示。目标是在推理速度和数值精度之间取得平衡，使用vLLM框架进行生产部署。

实际吞吐量提升了多少？

在Llama-3.1-8B模型上，W_MXFP4_A_MXFP6方案相比BF16基准吞吐量提升29%。在更大的Qwen3.6-27B模型上提升幅度为27%。两项结果均优于纯MXFP4方案，后者存在较大的精度损失。

精度：速度与准确性的权衡

精度保持接近FP8标准，远优于纯MXFP4。在Llama-3.1-8B的GSM8K基准测试中，混合精度达到76.42%——显著优于纯MXFP4的62.55%，但略低于FP8的80.44%。Qwen3.6-27B在AIME26基准上也呈现类似趋势：混合精度85.8%，FP8为86.7%，纯MXFP4仅为80.0%。

延迟：TTFT降低超过一秒

Llama-3.1-8B上的TTFT从6.409毫秒降至5.159毫秒，改善约1.25秒。对于拥有大量并发请求的生产系统，延迟的降低将直接改善用户体验。

结论：适合生产环境的实用权衡方案

MI355X上的W_MXFP4_A_MXFP6定位为成熟的生产推理解决方案：吞吐量接近纯MXFP4，精度接近FP8——无需在两者之间做出取舍。AMD由此直接与NVIDIA在H100/H200架构上的FP8推理形成竞争，在ROCm生态系统内为已使用AMD硬件或希望避免GPU基础设施单一供应商依赖的企业提供替代方案。

常见问题

什么是混合精度量化，为什么它很重要？

混合精度量化是一种AI模型压缩技术，神经网络的权重和激活值以不同数值格式存储——例如4位权重和6位激活值——从而减少内存占用并加速推理，同时将精度损失降至最低。

什么是TTFT，MI355X上降低了多少？

TTFT（首个令牌生成时间）衡量从发送请求到生成第一个令牌的延迟。在Llama-3.1-8B模型上，AMD通过MXFP4/MXFP6方案将TTFT从6.409毫秒降至5.159毫秒。

AMD：MI355X上的MXFP4/MXFP6混合精度量化——吞吐量最高提升29%