🔴 🔧 硬件 2026年5月7日星期四 · 2 分钟阅读 ·

NVIDIA:Spectrum-X多路径可靠连接成为OCP开放标准,面向超大规模AI网络

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X多路径可靠连接(MRC)是一种RDMA传输协议,可将单一连接分布到多条网络路径上,现已通过开放计算项目(OCP)发布为开放规范。MRC已在OpenAI、微软Fairwater数据中心和Oracle Abilene数据中心投入生产,并由AMD、博通、英特尔和微软共同参与开发。

🤖

本文由人工智能基于一手来源生成。

NVIDIA于2026年5月6日宣布,为Spectrum-X以太网平台开发的RDMA传输协议**多路径可靠连接(MRC)已通过开放计算项目(OCP)**发布为开放规范。该协议此前已在三个大型AI超级计算机上的Spectrum-X硬件上完成生产验证。

什么是多路径可靠连接?

MRC是一种传输协议,允许单一RDMA连接(远程直接内存访问——无需CPU介入即可访问远程主机内存)同时将流量分发到多条网络路径。NVIDIA在公告中打了个比方:与其说是一条单车道公路,MRC更像是「配备实时交通导航应用的街道网络」,能将车辆绕开拥堵和封路路段进行疏导。

在技术层面,该协议提供硬件加速的微秒级故障检测和流量重路由、智能重传以快速从丢包中恢复,以及面向管理员的精细流量可视化与控制能力。

哪些机构已在生产环境中使用MRC?

三大AI部署案例已依赖MRC投入运行:

  • OpenAI — 在多平面网络设计中将MRC与NVIDIA Blackwell世代GPU结合使用。OpenAI的Sachin Katti表示,「MRC端到端方案让我们得以避免典型的网络减速和中断」。
  • 微软 — Fairwater数据中心依托MRC实现性能提升与能效优化。
  • 甲骨文云基础设施 — Abilene数据中心采用MRC进行大规模前沿大语言模型部署。

上述三个案例均属于超大规模AI网络范畴——集群中GPU数量逾万,传统RDMA设计在热点和故障恢复速度方面开始力不从心。

为什么OCP标准化是重大变革?

开放计算项目是2011年成立的数据中心设备开放规范行业论坛。NVIDIA将协议捐献至OCP后,其他网络设备供应商可在自研ASIC和交换机中实现MRC——无需许可证,无需向NVIDIA支付专利费。

MRC的开发本就是协作成果:NVIDIA提到AMD、博通、英特尔、微软和OpenAI参与了规范制定。这大幅降低了已在Spectrum-X交换机上投入的超大规模云厂商面临的供应商锁定风险。

这对AI基础设施意味着什么?

超大规模AI网络此前一直是NVIDIA-Mellanox专有设计的领地。MRC规范的开放表明NVIDIA正乐于共享标准,以推动整个行业更快扩展——其逻辑前提是:GPU销售,而非交换机知识产权,才是主要收入来源。

对于自建AI集群的组织而言,MRC成为开放标准意味着有望在更多交换机供应商中实现选择,同时达到OpenAI、微软和甲骨文在生产环境中已拥有的同等性能水平。

常见问题

什么是多路径可靠连接(MRC)?
MRC是一种RDMA传输协议,允许单一RDMA连接同时将流量分发到多条网络路径,从而提升大型AI集群的吞吐量、负载均衡能力和可用性。
哪些机构已在生产环境中部署MRC?
OpenAI在多平面网络设计中将MRC与Blackwell世代GPU结合使用;微软Fairwater数据中心依赖MRC提升性能和效率;甲骨文云基础设施在Abilene数据中心采用MRC部署前沿大语言模型。
MRC成为OCP开放标准意味着什么?
2026年5月,NVIDIA将MRC作为开放规范发布至开放计算项目,允许其他网络设备供应商在Spectrum-X硬件上经生产验证后实现同一协议。