AMD:面向Instinct GPU的全新ATOM推理引擎提供OpenAI兼容API和MoE优化
AMD发布了ATOM推理引擎,专为Instinct GPU设计,提供OpenAI兼容API并协调KV缓存、调度和并行性。ATOM位于ROCm技术栈顶层,搭配AITER内核和MoRI RDMA通信,支持TP、DP和EP并行,针对DeepSeek V2至V4、Mixtral和Qwen3-MoE等MoE模型进行了优化。提供FP8、MXFP4、INT8和INT4量化,以及配备EAGLE提议器的MTP投机解码。
本文由人工智能基于一手来源生成。
AMD发布了ATOM推理引擎,专为Instinct GPU设计,直接面向AMD硬件上大型语言模型的生产级服务。
ATOM提供什么,在AMD技术栈中处于什么位置?
ATOM提供OpenAI兼容API,并在推理过程中协调KV缓存、调度和并行性。推理引擎是接收请求并管理GPU上模型执行的层。ATOM位于AMD技术栈顶层:ROCm作为平台,AITER用于内核加速,MoRI用于节点间RDMA通信,ATOM作为服务层。RDMA(远程直接内存访问)实现设备间的直接内存传输,无需处理器介入。
ATOM支持哪些模型和并行类型?
ATOM支持张量并行(TP)、数据并行(DP)和专家并行(EP),对MoE(混合专家)模型进行了特别优化。明确列出的模型包括DeepSeek V2至V4、Mixtral、Qwen3-MoE、Kimi-K2.5和MiniMax-M2。专家并行将MoE模型中的各个”专家”分布到多个GPU上,这对于高效服务大型MoE架构至关重要。
ATOM如何加速推理?
ATOM提供FP8、MXFP4、INT8和INT4格式的量化,并可从HuggingFace模型配置自动检测。量化通过降低权重精度来加速推理并减少内存消耗。此外,ATOM使用配备EAGLE提议器的MTP投机解码、前缀缓存共享以及分段编译来加快处理速度。
如何在实践中使用ATOM?
ATOM可以独立运行,也可以作为vLLM和SGLang的插件使用,vLLM和SGLang是两个流行的LLM服务库。AMD还发布了包含夜间性能追踪的公开基准仪表板,提供Instinct GPU服务相对于NVIDIA技术栈进展的透明信号。
常见问题
- AMD ATOM是什么?
- 面向AMD Instinct GPU的推理引擎,提供OpenAI兼容API并协调KV缓存、调度和并行性。
- ATOM优化了哪些模型?
- MoE模型,包括DeepSeek V2至V4、Mixtral、Qwen3-MoE、Kimi-K2.5和MiniMax-M2。
- ATOM支持哪些量化格式?
- FP8、MXFP4、INT8和INT4,可从HuggingFace配置自动检测。