Google DeepMind Decoupled DiLoCo:跨地理分布数据中心的AI训练网络带宽降低20倍
为什么重要
Google DeepMind发布了Decoupled DiLoCo,一种用于AI模型训练的分布式架构。它将8个数据中心之间所需的网络带宽从198 Gbps降至0.84 Gbps,同时在高故障率场景下将吞吐量从27%提升至88%。
Google DeepMind于2026年4月23日发布了Decoupled DiLoCo,其分布式AI模型训练架构的新一代迭代。核心成果——8个数据中心配置下,数据中心之间所需的网络带宽从198 Gbps降至0.84 Gbps,同时在高故障率场景下吞吐量从27%提升至88%。
DiLoCo是什么,为何需要它?
DiLoCo(分布式低通信)是DeepMind于2023年提出并在2024年持续完善的方法。它解决了现代AI训练的根本问题——数据中心内部与数据中心之间的网络带宽差异。
在单个数据中心内,GPU通过超高速连接(NVLink、InfiniBand)相连,可达每节点数百Gbps。但当训练需要跨多个地理上分散的数据中心时,它们之间的带宽低10到100倍,延迟也显著更高。
传统的数据并行算法需要频繁的梯度同步——这种带宽在数据中心内存在,但数据中心之间没有。DiLoCo通过本地优化步骤解决这一问题,无需同步即可执行,仅周期性地交换累积的梯度。
「解耦」创新是什么?
4月23日发布的新迭代引入了异步计算岛的概念。各个数据中心的「岛屿」不再在同一时刻执行相同步骤,而是独立推进,仅在关键检查点通信。
这种计算流与通信流的解耦(decoupling)大幅降低了数据中心之间的网络压力。根据DeepMind公布的数据,所需带宽从198 Gbps降至0.84 Gbps——降低约235倍。
核心指标有哪些?
DeepMind公布了三项关键指标:
- 带宽:8个数据中心之间从198 Gbps → 0.84 Gbps
- 吞吐量(有效工作的实际吞吐率):Decoupled DiLoCo达88% vs 传统方法27%,在120万芯片高故障率模拟下测得
- 精度:新方法64.1% vs 基线64.4%——退化0.3个百分点
第三个数字最为重要。历史上,分布式方法带来了可观的通信收益,但以模型质量显著下降为代价。Decoupled DiLoCo几乎消除了这一困境——网络节省的代价极小。
实际意义是什么?
影响深远。训练万亿参数模型迄今需要超高连接的超大型数据中心或具有专用AI优化网络结构的商业云。Decoupled DiLoCo表明,同样的工作可以跨地理上分散的基础设施完成——即使各地点之间的网络带宽有限。
对于开源AI社区和较小的实验室,这降低了谷歌、微软和Meta目前拥有的**「计算护城河」**。拥有若干中等规模GPU集群(不必在同一地点)的项目现在可以切实地考虑训练具有竞争力的模型。
与竞争对手的关系
其他公司也在探索类似方法。Meta FLocal试图通过并行流水线优化分布式训练,而Anthropic TurboTrain专注于在自有基础设施内优化吞吐量。从公布的数据来看,Decoupled DiLoCo在降低网络需求方面最为激进。
虽然这是一篇研究性发布而非开放代码,但谷歌有通过JAX生态系统开放此类方法的惯例。如果这次也是如此,开放研究人员将获得一个强大的新工具。
本文由人工智能基于一手来源生成。