AMD ATOM优化器：MI355X上的DeepSeek-V4

ATOM是AMD为MI355X GPU开发的开源推理引擎，针对DeepSeek-V4带来两项优化：PrefillDelayer消除了秩协调时的空闲损耗，Two-Batch Overlap通过重叠网络操作加速令牌负载均衡。

什么是ATOM，AMD为何开发自己的推理引擎？

ATOM是AMD的开源推理引擎——优化MI355X GPU运行大型语言模型的软件驱动层。与需要专用all2all网络硬件的方案不同，ATOM表明标准集体原语在标准互联上同样可以实现相当的性能。

DeepSeek-V4的两项关键优化

PrefillDelayer协调Data Parallel秩进入预填充阶段的时机——消除了所谓的dummy-prefill损耗，即各秩在无效等待期间互相等待而浪费计算资源的现象。第二项优化Two-Batch Overlap在单个令牌级别引入令牌负载均衡，并重叠AllGather和ReduceScatter网络操作（AG/RS重叠），从而减少总体网络传输等待时间。

SemiAnalysis InferenceX基准测试结果

测试在SemiAnalysis InferenceX基准上进行，工作负载为8K输入和1K输出令牌。AMD表示，ATOM在MI355X上的表现可与通常需要昂贵定制互联硬件的专用all2all方案媲美——这对标准基础设施而言是重要成果。代码以开源形式公开，所有希望在AMD硬件上实验DeepSeek-V4的用户均可使用。

常见问题

ATOM推理引擎是什么，与标准解决方案有何不同？

ATOM是AMD的开源推理引擎——管理GPU执行AI模型的软件层。其独特之处在于使用标准网络原语即可实现高性能，无需昂贵的定制互联硬件。

ATOM在哪些工作负载上进行了测试？

基准测试在SemiAnalysis InferenceX上进行，工作负载为8K输入和1K输出令牌，对应DeepSeek-V4等大型语言模型的典型生产需求。

AMD: ATOM优化器 — MI355X上的DeepSeek-V4的DP注意力与双批次重叠

什么是ATOM，AMD为何开发自己的推理引擎？

DeepSeek-V4的两项关键优化

SemiAnalysis InferenceX基准测试结果

常见问题

来源

相关新闻