AMD:ROCm 7.13带来MI350P GPU、多VF虚拟化与TheRock模块化打包
AMD于2026年5月20日发布ROCm 7.13——其开源AI计算栈的新版本,引入MI350P GPU支持、每个MI300X加速器最多8个隔离vGPU虚拟化、用于透明性能分析的开源ROCprof Trace解码器,以及带有领域专用SDK的模块化TheRock打包方案。该版本已在Ubuntu 26.04和RHEL 9.6上完成验证,并包含MI350X和MI355X的VMware ESXi 9.1支持。
本文由人工智能基于一手来源生成。
AMD于2026年5月20日发布ROCm 7.13——这是其开源AI计算栈的新版本,也是NVIDIA CUDA生态系统的主要开源替代方案。本次发布引入了MI350P GPU支持、多VF虚拟化、开源ROCprof Trace解码器和TheRock模块化打包。
ROCm 7.13在企业虚拟化方面带来了什么?
企业部署最大的亮点是多VF(虚拟功能)支持:每个MI300X物理加速器最多可划分8个隔离vGPU。这使多个租户或多个模型能够在具备内存隔离的情况下共享同一硬件——这是多租户云服务商和希望提升昂贵加速器利用率的本地AI平台的关键需求。与VMware ESXi 9.1的集成进一步将支持扩展到MI350X和MI355X型号。
开源ROCprof Trace解码器为何重要?
性能分析长期以来是AMD落后于NVIDIA Nsight Systems的领域。ROCm 7.13引入开源ROCprof Trace解码器,提供对GPU指令、内存流量和内核延迟的透明可见性。该工具的开源属性意味着第三方(如Hugging Face、MosaicML、vLLM团队)可以在解码器之上开发专用分析工具,从而加速生态系统发展。
TheRock如何改变部署方式?
TheRock是AMD针对ROCm的新模块化打包格式。此前ROCm以一体化堆栈形式提供,安装约需12GB。TheRock支持分离式领域专用SDK,涵盖HPC、计算机视觉、数据科学和生命科学,用户只需安装所需组件。这不仅减少了安装体积、加快了补丁周期,还从安全角度缩减了攻击面。
验证与支持
ROCm 7.13已在Ubuntu 26.04和Red Hat Enterprise Linux 9.6(两大最主流的企业Linux发行版)上完成验证。AMD同期还发布了QuickReduce库更新,支持针对MI355 GPU的FP4量化,并声称在多GPU大消息通信方面相对标准RCCL实现4.1倍加速——这一配套发布进一步缩小了与CUDA的性能差距。
常见问题
- MI350P GPU有哪些新特性?
- MI350P是AMD Instinct系列的全新AI加速器,针对推理和微调工作负载进行了优化。ROCm 7.13支持裸机和Kubernetes部署,与VMware ESXi 9.1的集成支持企业虚拟化。
- 多VF虚拟化具体能实现什么?
- 多VF(虚拟功能)允许每个MI300X物理加速器最多划分出8个隔离虚拟GPU。这使多租户或多个模型可以在具备内存隔离的情况下共享同一硬件,对于多租户云和本地AI平台而言是关键能力。
- TheRock是什么,为何重要?
- TheRock是AMD针对ROCm的新模块化打包格式,提供可选的领域专用SDK——HPC、计算机视觉、数据科学和生命科学分开打包。这减少了安装体积和管理开销,因为用户只需安装所需的组件。