AMD: ATOM优化器 — MI355X上的DeepSeek-V4的DP注意力与双批次重叠
ATOM是AMD为MI355X GPU开发的开源推理引擎,针对DeepSeek-V4带来两项优化:PrefillDelayer消除了秩协调时的空闲损耗,Two-Batch Overlap通过重叠网络操作加速令牌负载均衡。
本文由人工智能基于一手来源生成。
什么是ATOM,AMD为何开发自己的推理引擎?
ATOM是AMD的开源推理引擎——优化MI355X GPU运行大型语言模型的软件驱动层。与需要专用all2all网络硬件的方案不同,ATOM表明标准集体原语在标准互联上同样可以实现相当的性能。
DeepSeek-V4的两项关键优化
PrefillDelayer协调Data Parallel秩进入预填充阶段的时机——消除了所谓的dummy-prefill损耗,即各秩在无效等待期间互相等待而浪费计算资源的现象。第二项优化Two-Batch Overlap在单个令牌级别引入令牌负载均衡,并重叠AllGather和ReduceScatter网络操作(AG/RS重叠),从而减少总体网络传输等待时间。
SemiAnalysis InferenceX基准测试结果
测试在SemiAnalysis InferenceX基准上进行,工作负载为8K输入和1K输出令牌。AMD表示,ATOM在MI355X上的表现可与通常需要昂贵定制互联硬件的专用all2all方案媲美——这对标准基础设施而言是重要成果。代码以开源形式公开,所有希望在AMD硬件上实验DeepSeek-V4的用户均可使用。
常见问题
- ATOM推理引擎是什么,与标准解决方案有何不同?
- ATOM是AMD的开源推理引擎——管理GPU执行AI模型的软件层。其独特之处在于使用标准网络原语即可实现高性能,无需昂贵的定制互联硬件。
- ATOM在哪些工作负载上进行了测试?
- 基准测试在SemiAnalysis InferenceX上进行,工作负载为8K输入和1K输出令牌,对应DeepSeek-V4等大型语言模型的典型生产需求。