NVIDIA:Spectrum-X多路径可靠连接成为OCP开放标准,面向超大规模AI网络
NVIDIA Spectrum-X多路径可靠连接(MRC)是一种RDMA传输协议,可将单一连接分布到多条网络路径上,现已通过开放计算项目(OCP)发布为开放规范。MRC已在OpenAI、微软Fairwater数据中心和Oracle Abilene数据中心投入生产,并由AMD、博通、英特尔和微软共同参与开发。
本文由人工智能基于一手来源生成。
NVIDIA于2026年5月6日宣布,为Spectrum-X以太网平台开发的RDMA传输协议**多路径可靠连接(MRC)已通过开放计算项目(OCP)**发布为开放规范。该协议此前已在三个大型AI超级计算机上的Spectrum-X硬件上完成生产验证。
什么是多路径可靠连接?
MRC是一种传输协议,允许单一RDMA连接(远程直接内存访问——无需CPU介入即可访问远程主机内存)同时将流量分发到多条网络路径。NVIDIA在公告中打了个比方:与其说是一条单车道公路,MRC更像是「配备实时交通导航应用的街道网络」,能将车辆绕开拥堵和封路路段进行疏导。
在技术层面,该协议提供硬件加速的微秒级故障检测和流量重路由、智能重传以快速从丢包中恢复,以及面向管理员的精细流量可视化与控制能力。
哪些机构已在生产环境中使用MRC?
三大AI部署案例已依赖MRC投入运行:
- OpenAI — 在多平面网络设计中将MRC与NVIDIA Blackwell世代GPU结合使用。OpenAI的Sachin Katti表示,「MRC端到端方案让我们得以避免典型的网络减速和中断」。
- 微软 — Fairwater数据中心依托MRC实现性能提升与能效优化。
- 甲骨文云基础设施 — Abilene数据中心采用MRC进行大规模前沿大语言模型部署。
上述三个案例均属于超大规模AI网络范畴——集群中GPU数量逾万,传统RDMA设计在热点和故障恢复速度方面开始力不从心。
为什么OCP标准化是重大变革?
开放计算项目是2011年成立的数据中心设备开放规范行业论坛。NVIDIA将协议捐献至OCP后,其他网络设备供应商可在自研ASIC和交换机中实现MRC——无需许可证,无需向NVIDIA支付专利费。
MRC的开发本就是协作成果:NVIDIA提到AMD、博通、英特尔、微软和OpenAI参与了规范制定。这大幅降低了已在Spectrum-X交换机上投入的超大规模云厂商面临的供应商锁定风险。
这对AI基础设施意味着什么?
超大规模AI网络此前一直是NVIDIA-Mellanox专有设计的领地。MRC规范的开放表明NVIDIA正乐于共享标准,以推动整个行业更快扩展——其逻辑前提是:GPU销售,而非交换机知识产权,才是主要收入来源。
对于自建AI集群的组织而言,MRC成为开放标准意味着有望在更多交换机供应商中实现选择,同时达到OpenAI、微软和甲骨文在生产环境中已拥有的同等性能水平。
常见问题
- 什么是多路径可靠连接(MRC)?
- MRC是一种RDMA传输协议,允许单一RDMA连接同时将流量分发到多条网络路径,从而提升大型AI集群的吞吐量、负载均衡能力和可用性。
- 哪些机构已在生产环境中部署MRC?
- OpenAI在多平面网络设计中将MRC与Blackwell世代GPU结合使用;微软Fairwater数据中心依赖MRC提升性能和效率;甲骨文云基础设施在Abilene数据中心采用MRC部署前沿大语言模型。
- MRC成为OCP开放标准意味着什么?
- 2026年5月,NVIDIA将MRC作为开放规范发布至开放计算项目,允许其他网络设备供应商在Spectrum-X硬件上经生产验证后实现同一协议。