AMD ATOM：面向Instinct GPU的推理引擎

AMD发布了ATOM推理引擎，专为Instinct GPU设计，提供OpenAI兼容API并协调KV缓存、调度和并行性。ATOM位于ROCm技术栈顶层，搭配AITER内核和MoRI RDMA通信，支持TP、DP和EP并行，针对DeepSeek V2至V4、Mixtral和Qwen3-MoE等MoE模型进行了优化。提供FP8、MXFP4、INT8和INT4量化，以及配备EAGLE提议器的MTP投机解码。

AMD发布了ATOM推理引擎，专为Instinct GPU设计，直接面向AMD硬件上大型语言模型的生产级服务。

ATOM提供什么，在AMD技术栈中处于什么位置？

ATOM提供OpenAI兼容API，并在推理过程中协调KV缓存、调度和并行性。推理引擎是接收请求并管理GPU上模型执行的层。ATOM位于AMD技术栈顶层：ROCm作为平台，AITER用于内核加速，MoRI用于节点间RDMA通信，ATOM作为服务层。RDMA（远程直接内存访问）实现设备间的直接内存传输，无需处理器介入。

ATOM支持哪些模型和并行类型？

ATOM支持张量并行（TP）、数据并行（DP）和专家并行（EP），对MoE（混合专家）模型进行了特别优化。明确列出的模型包括DeepSeek V2至V4、Mixtral、Qwen3-MoE、Kimi-K2.5和MiniMax-M2。专家并行将MoE模型中的各个”专家”分布到多个GPU上，这对于高效服务大型MoE架构至关重要。

ATOM如何加速推理？

ATOM提供FP8、MXFP4、INT8和INT4格式的量化，并可从HuggingFace模型配置自动检测。量化通过降低权重精度来加速推理并减少内存消耗。此外，ATOM使用配备EAGLE提议器的MTP投机解码、前缀缓存共享以及分段编译来加快处理速度。

如何在实践中使用ATOM？

ATOM可以独立运行，也可以作为vLLM和SGLang的插件使用，vLLM和SGLang是两个流行的LLM服务库。AMD还发布了包含夜间性能追踪的公开基准仪表板，提供Instinct GPU服务相对于NVIDIA技术栈进展的透明信号。

常见问题

AMD ATOM是什么？

面向AMD Instinct GPU的推理引擎，提供OpenAI兼容API并协调KV缓存、调度和并行性。

ATOM优化了哪些模型？

MoE模型，包括DeepSeek V2至V4、Mixtral、Qwen3-MoE、Kimi-K2.5和MiniMax-M2。

ATOM支持哪些量化格式？

FP8、MXFP4、INT8和INT4，可从HuggingFace配置自动检测。

AMD：面向Instinct GPU的全新ATOM推理引擎提供OpenAI兼容API和MoE优化

ATOM提供什么，在AMD技术栈中处于什么位置？

ATOM支持哪些模型和并行类型？

ATOM如何加速推理？

如何在实践中使用ATOM？

常见问题

来源

相关新闻