Google DeepMind Decoupled DiLoCo:地理的に分散したデータセンター間のAI訓練ネットワーク帯域幅を20倍削減
なぜ重要か
Google DeepMindがDecoupled DiLoCo、AIモデル訓練のための分散アーキテクチャを発表しました。8つのデータセンター間で必要なネットワーク帯域幅を198 Gbpsから0.84 Gbpsに削減し、高障害率シナリオでのグッドプットを27%から88%に改善しています。
Google DeepMindは2026年4月23日、Decoupled DiLoCo——分散型AIモデル訓練アーキテクチャの新世代を発表しました。主要な成果として、8データセンター構成でのデータセンター間で必要なネットワーク帯域幅が198 Gbpsから0.84 Gbpsに低下し、高障害率シナリオでグッドプットが27%から88%に改善されています。
DiLoCo とは何か、なぜ必要だったのか?
DiLoCo(Distributed Low-Communication)はDeepMindが2023年に発表し、2024年を通じて改良してきた手法です。現代のAI訓練の根本的な問題——データセンター内と間のネットワーク帯域幅の差異を解決します。
単一のデータセンター内では、GPUは超高速リンク(NVLink、InfiniBand)で接続され、ノードあたり数百Gbpsを実現します。しかし、地理的に離れた複数のデータセンターに訓練を分散させようとすると、それらの間の帯域幅は10〜100倍低く、レイテンシは大幅に高くなります。
従来のデータ並列アルゴリズムは頻繁な勾配同期を必要とします——データセンター内には存在するが、データセンター間にはない帯域幅です。DiLoCoはその問題をローカル最適化ステップで解決し、同期なしに実行し、累積勾配を定期的にのみ交換します。
「デカップリング」の革新とは何か?
4月23日に発表された新しいイテレーションは非同期計算アイランドの概念を導入しています。すべてのデータセンターが同時に同じステップを実行するのではなく、個々の「アイランド」が独立して前進し、重要なチェックポイントでのみ通信します。
この計算フローと通信フローのデカップリングにより、データセンター間のネットワーク圧力が劇的に低下します。DeepMindが公開した数値によると、必要な帯域幅は198 Gbpsから0.84 Gbpsに——約235倍の削減です。
主要指標は何ですか?
DeepMindは3つの主要指標を公開しました:
- 帯域幅:8データセンター間で198 Gbps → 0.84 Gbps
- グッドプット(有効な作業の実際のスループット):Decoupled DiLoCo で88% vs 従来手法 27%(120万チップ、高障害率シミュレーション)
- 精度:新手法 64.1% vs ベースライン 64.4%——0.3ポイントの低下
3番目の数字が最も重要です。歴史的に、分散手法は大きな通信削減をもたらしましたが、モデル品質の大幅な低下を伴いました。Decoupled DiLoCo はこのジレンマをほぼ解消しています——ネットワーク節約のコストは最小限です。
実際の意味は何ですか?
影響は計り知れません。兆パラメータモデルの訓練は、これまで超高速接続のメガデータセンターや特殊なAI最適化ファブリックネットワークを持つ商用クラウドを必要としていました。Decoupled DiLoCo は、同じ作業が地理的に分散したインフラを通じて実行できることを示しています——場所間の帯域幅が控えめであっても。
オープンソースAIコミュニティや小規模なラボにとって、これはGoogleやMicrosoft、Metaが現在持つ**「計算の堀」**を低下させます。複数の中規模GPUクラスター(同じ場所にある必要はない)にアクセスできるプロジェクトは、競争力のあるモデルの訓練を現実的に検討できるようになりました。
競合他社との関係
他社も同様のアプローチを研究しています。Meta FLocalは並列パイプラインによる分散訓練の最適化を試みており、Anthropic TurboTrainは自社インフラ内のスループット最適化に注力しています。公開された数値で見ると、Decoupled DiLoCo はネットワーク要件の削減において最も積極的です。
研究発表であってオープンコードではありませんが、Googleはこのような手法をJAXエコシステムを通じてオープン化する実績があります。今回もそうなれば、オープンな研究者に強力な新ツールが提供されます。
この記事はAIにより一次情報源から生成されました。