AMD ROCm: 通过 Quark + FlyDSL + AITER 推理栈在 MI325X 上实现 Kimi-K2.5 W4A8 与 W8A8 量化
AMD ROCm Kimi-K2.5 MI325X 量化方案是于 2026 年 5 月 14 日发布的新型推理加速蓝图。该方案结合 AMD Quark 量化工具包将 Kimi-K2.5 模型转换为 W4A8 和 W8A8 精度格式、FlyDSL 推理服务层以及 AITER 优化栈。这一方案为中国前沿模型提供了非 NVIDIA 推理路径,并展示了 AMD 将 MI325X 打造为 H100/H200 可行替代方案的策略。
本文由人工智能基于一手来源生成。
AMD 于 2026 年 5 月 14 日发布了针对 Kimi-K2.5 模型的推理加速蓝图——来自 Moonshot AI 的中国前沿大语言模型——使用三个 AMD 专属组件:Quark 量化器、FlyDSL 服务层和 AITER 优化工具包。此次发布是 AMD 将 MI325X 定位为开源大语言模型服务领域 NVIDIA H100/H200 可行替代方案的广泛战略的一部分。
W4A8 和 W8A8 量化意味着什么?
量化通过降低权重和激活的精度来减少模型的内存占用:
- W4A8 — 4 位权重,8 位激活。最激进的压缩方案,需要谨慎校准,因为 4 位权重填充可能导致敏感层出现质量下降。适用于最大吞吐量场景。
- W8A8 — 8 位权重,8 位激活。压缩较为温和,保留更多精度,适用于精度至关重要但 fp16/bf16 内存占用过大的场景。
该方案使 Kimi-K2.5——在原生精度下需要大型 GPU 集群——能够在更少的 MI325X 卡上运行。
AMD 推理栈的三个组件是什么?
AMD Quark 是量化框架,通过校准阶段处理预训练模型,应用量化方案并输出与下游服务层兼容的量化权重。FlyDSL 是领域专用语言和运行时,用于推理调度——定义内核如何路由和排序以实现最优 GPU 利用率。AITER(AI 推理工具包) 专门针对 MI325X 上的 AMD CDNA 架构优化内核——手动调优的复合算子,高效利用本地张量核心和内存层次结构。
MI325X 的战略目标是什么?
MI325X 是 AMD 继 MI300X 之后第二款面向 AI 推理的主流 GPU。AMD 明确瞄准推理工作负载,而非训练——训练市场由 NVIDIA Hopper/Blackwell 栈主导。推理对成本更为敏感,对开放架构的容忍度更高,因此 AMD 有空间通过更具竞争力的性价比参与竞争。
在开源前沿大语言模型格局中的定位
Kimi-K2.5 是 Moonshot AI 的开放权重模型,在某些基准测试中被视为 Claude Opus 4.7 和 GPT-5.5 的竞争对手。AMD 方案使偏好非 NVIDIA 硬件的客户——出于监管原因(例如欧盟 AI 法案合规性,倾向于多供应商技术栈)——拥有前沿模型的完整推理路径。
此次发布契合本周更广泛的趋势:硬件供应商、框架提供商和模型实验室协同构建非 NVIDIA 推理路径——与 PyTorch 2.12(5 月 13 日)设备无关加速器 API(消除 CUDA 锁定)的发布相互呼应。
常见问题
- W4A8 和 W8A8 量化意味着什么?
- W4A8 表示 4 位权重与 8 位激活——最激进的内存压缩方案,需要谨慎校准,因为 4 位权重填充可能导致敏感层出现质量下降;W8A8 表示 8 位权重与 8 位激活,压缩较为温和,保留更多精度,适用于精度要求较高但 fp16/bf16 内存占用过大的场景。
- AMD 推理栈的三个组件是什么?
- AMD Quark 对模型执行量化,FlyDSL 服务层通过自定义 GPU 调度领域专用语言编排推理,AITER(AI 推理工具包)针对 MI325X 上的 AMD CDNA 架构优化内核。