这是DeepMind于2023-24年提出的大型语言模型分布式训练方法。它通过异步通信和同步之间的本地优化步骤，实现跨多个数据中心的训练。

网络带宽降低了多少？

在8个数据中心的场景下，从198 Gbps降至0.84 Gbps——约减少235倍。同时，在高故障率下吞吐量从27%提升至88%。

DeepMind Decoupled DiLoCo：训练带宽降低235倍

Google DeepMind于2026年4月23日发布了Decoupled DiLoCo，其分布式AI模型训练架构的新一代迭代。核心成果——8个数据中心配置下，数据中心之间所需的网络带宽从198 Gbps降至0.84 Gbps，同时在高故障率场景下吞吐量从27%提升至88%。

DiLoCo是什么，为何需要它？

DiLoCo（分布式低通信）是DeepMind于2023年提出并在2024年持续完善的方法。它解决了现代AI训练的根本问题——数据中心内部与数据中心之间的网络带宽差异。

在单个数据中心内，GPU通过超高速连接（NVLink、InfiniBand）相连，可达每节点数百Gbps。但当训练需要跨多个地理上分散的数据中心时，它们之间的带宽低10到100倍，延迟也显著更高。

传统的数据并行算法需要频繁的梯度同步——这种带宽在数据中心内存在，但数据中心之间没有。DiLoCo通过本地优化步骤解决这一问题，无需同步即可执行，仅周期性地交换累积的梯度。

「解耦」创新是什么？

4月23日发布的新迭代引入了异步计算岛的概念。各个数据中心的「岛屿」不再在同一时刻执行相同步骤，而是独立推进，仅在关键检查点通信。

这种计算流与通信流的解耦（decoupling）大幅降低了数据中心之间的网络压力。根据DeepMind公布的数据，所需带宽从198 Gbps降至0.84 Gbps——降低约235倍。

核心指标有哪些？

DeepMind公布了三项关键指标：

带宽：8个数据中心之间从198 Gbps → 0.84 Gbps
吞吐量（有效工作的实际吞吐率）：Decoupled DiLoCo达88% vs 传统方法27%，在120万芯片高故障率模拟下测得
精度：新方法64.1% vs 基线64.4%——退化0.3个百分点

第三个数字最为重要。历史上，分布式方法带来了可观的通信收益，但以模型质量显著下降为代价。Decoupled DiLoCo几乎消除了这一困境——网络节省的代价极小。

实际意义是什么？

影响深远。训练万亿参数模型迄今需要超高连接的超大型数据中心或具有专用AI优化网络结构的商业云。Decoupled DiLoCo表明，同样的工作可以跨地理上分散的基础设施完成——即使各地点之间的网络带宽有限。

对于开源AI社区和较小的实验室，这降低了谷歌、微软和Meta目前拥有的**「计算护城河」**。拥有若干中等规模GPU集群（不必在同一地点）的项目现在可以切实地考虑训练具有竞争力的模型。

与竞争对手的关系

其他公司也在探索类似方法。Meta FLocal试图通过并行流水线优化分布式训练，而Anthropic TurboTrain专注于在自有基础设施内优化吞吐量。从公布的数据来看，Decoupled DiLoCo在降低网络需求方面最为激进。

虽然这是一篇研究性发布而非开放代码，但谷歌有通过JAX生态系统开放此类方法的惯例。如果这次也是如此，开放研究人员将获得一个强大的新工具。

Google DeepMind Decoupled DiLoCo：跨地理分布数据中心的AI训练网络带宽降低20倍

DiLoCo是什么，为何需要它？

「解耦」创新是什么？

核心指标有哪些？

实际意义是什么？

与竞争对手的关系

来源

相关新闻