AMD: vLLM-ATOM插件无需修改vLLM源码即可集成Instinct优化
AMD发布vLLM-ATOM开源插件,无需修改任何源码即可将Instinct GPU优化集成到vLLM生产框架中。插件通过Python entry_points机制自动激活,支持包括Kimi-K2.5和DeepSeek V3/R1在内的dense和MoE模型,并使用AITER内核实现融合MoE和flash attention。
本文由人工智能基于一手来源生成。
什么是vLLM-ATOM?
AMD于2026年5月7日发布了vLLM-ATOM——一个开源插件,可将Instinct GPU优化集成到vLLM(最广泛使用的大型语言模型服务生产框架之一)中。其核心特点是无需对vLLM源码进行任何修改即可实现集成——插件通过标准Python entry_points机制激活,并注册两个钩子:register_platform()和register_model()。
三层架构
插件通过三个层次清晰分离职责:
- vLLM层保留对请求调度、KV缓存管理、连续批处理和OpenAI兼容API的控制。
- ATOM插件注册平台、优化后的模型实现和注意力后端路由。
- AITER提供针对Instinct硬件优化的低级GPU内核。
这种分层设计使AMD能够在不fork vLLM仓库的情况下贡献优化——这对于开源生态系统的可持续性至关重要。
支持哪些模型?
插件通过dense和MoE架构覆盖文本(LLM)和多模态(VLM)模型:
- Kimi-K2.5 — 多模态MoE模型(文本/图像/视频)
- DeepSeek V3和R1,支持MLA+MoE变体,包括FP8和MXFP4量化
- Qwen3系列,支持dense和MoE配置
- GLM-4和GPT-OSS,支持MoE
注意力后端路由是自动的:标准多头注意力使用AiterBackend,多头潜在注意力架构使用AiterMLABackend。
这在战略上为何重要?
NVIDIA在推理市场的主导地位既得益于成熟的编程范式,也得益于其硬件。AMD通过vLLM-ATOM——加上用于融合MoE和flash attention的AITER内核——表明公司专注于**「零摩擦」体验**:在vLLM旁边安装插件,优化自动生效。实时基准测试仪表盘跨模型更新追踪吞吐量、延迟和准确性,在扩展前实现生产验证。对于围绕Kimi-K2.5和DeepSeek构建基础设施的开源社区而言,这是朝着硬件多样化迈出的切实一步。
常见问题
- 什么是vLLM?
- 用于大型语言模型服务的开源生产框架,以通过连续批处理和PagedAttention KV缓存机制实现高吞吐量而闻名。
- 什么是MoE架构?
- 混合专家架构——包含多个专门子网络的模型;推理时只激活其中一部分,在保持大容量的同时降低每个Token的计算成本。
- 什么是AITER?
- AMD为Instinct硬件优化的低级GPU内核库——包含融合MoE、flash attention、量化GEMM和RoPE融合。