24 AI 今日 AI 新闻，源自一手资料的摘要。

全部 🤖 模型 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🟡 📦 开源 2026年5月7日星期四 · 1 分钟阅读 · 24 AI 编辑部

AMD: vLLM-ATOM插件无需修改vLLM源码即可集成Instinct优化

Editorial illustration: vLLM-ATOM插件无需修改vLLM源码即可集成Instinct优化

AMD发布vLLM-ATOM开源插件，无需修改任何源码即可将Instinct GPU优化集成到vLLM生产框架中。插件通过Python entry_points机制自动激活，支持包括Kimi-K2.5和DeepSeek V3/R1在内的dense和MoE模型，并使用AITER内核实现融合MoE和flash attention。

🤖

本文由人工智能基于一手来源生成。

什么是vLLM-ATOM？

AMD于2026年5月7日发布了vLLM-ATOM——一个开源插件，可将Instinct GPU优化集成到vLLM（最广泛使用的大型语言模型服务生产框架之一）中。其核心特点是无需对vLLM源码进行任何修改即可实现集成——插件通过标准Python entry_points机制激活，并注册两个钩子：register_platform()和register_model()。

三层架构

插件通过三个层次清晰分离职责：

vLLM层保留对请求调度、KV缓存管理、连续批处理和OpenAI兼容API的控制。
ATOM插件注册平台、优化后的模型实现和注意力后端路由。
AITER提供针对Instinct硬件优化的低级GPU内核。

这种分层设计使AMD能够在不fork vLLM仓库的情况下贡献优化——这对于开源生态系统的可持续性至关重要。

支持哪些模型？

插件通过dense和MoE架构覆盖文本（LLM）和多模态（VLM）模型：

Kimi-K2.5 — 多模态MoE模型（文本/图像/视频）
DeepSeek V3和R1，支持MLA+MoE变体，包括FP8和MXFP4量化
Qwen3系列，支持dense和MoE配置
GLM-4和GPT-OSS，支持MoE

注意力后端路由是自动的：标准多头注意力使用AiterBackend，多头潜在注意力架构使用AiterMLABackend。

这在战略上为何重要？

NVIDIA在推理市场的主导地位既得益于成熟的编程范式，也得益于其硬件。AMD通过vLLM-ATOM——加上用于融合MoE和flash attention的AITER内核——表明公司专注于**「零摩擦」体验**：在vLLM旁边安装插件，优化自动生效。实时基准测试仪表盘跨模型更新追踪吞吐量、延迟和准确性，在扩展前实现生产验证。对于围绕Kimi-K2.5和DeepSeek构建基础设施的开源社区而言，这是朝着硬件多样化迈出的切实一步。

常见问题

什么是vLLM？: 用于大型语言模型服务的开源生产框架，以通过连续批处理和PagedAttention KV缓存机制实现高吞吐量而闻名。
什么是MoE架构？: 混合专家架构——包含多个专门子网络的模型；推理时只激活其中一部分，在保持大容量的同时降低每个Token的计算成本。
什么是AITER？: AMD为Instinct硬件优化的低级GPU内核库——包含融合MoE、flash attention、量化GEMM和RoPE融合。

来源

ROCm Blogs — vLLM-ATOM plugin ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🔴 2026-05-06

Allen Institute: MolmoAct 2 是首个开源机器人基础模型，超越 GPT-5 和 Gemini 2.5 Pro

🟢 2026-04-30

IBM Granite 4.1：在150亿词元上训练的3B/8B/30B Apache 2.0开源模型家族，稠密8B可与32B MoE媲美

🟡 2026-04-29

Marco-MoE：开源多语言MoE模型仅激活5%参数，超越激活参数量多3-14倍的密集模型

← 返回首页