🤖 24 AI
🟡 📦 Open Source Freitag, 24. April 2026 · 3 Min. Lesezeit

Google DeepMind Decoupled DiLoCo: 20-fach geringere Netzwerkbandbreite für KI-Training über geografisch verteilte Rechenzentren

Editorial illustration: Open-Source-Tool — open-source

Warum es wichtig ist

Google DeepMind hat Decoupled DiLoCo vorgestellt, eine verteilte Architektur für das Training von KI-Modellen. Die erforderliche Netzwerkbandbreite sinkt von 198 Gbit/s auf 0,84 Gbit/s über 8 Rechenzentren, und es wird ein Goodput von 88 % gegenüber 27 % bei herkömmlichen Methoden erreicht.

Google DeepMind veröffentlichte am 23. April 2026 Decoupled DiLoCo — eine neue Iteration seiner verteilten Architektur für das Training von KI-Modellen. Das Hauptergebnis: Die erforderliche Netzwerkbandbreite zwischen Rechenzentren sinkt von 198 Gbit/s auf 0,84 Gbit/s für eine Konfiguration mit 8 Rechenzentren, während gleichzeitig der Goodput von 27 % auf 88 % in einem Szenario mit hoher Ausfallrate steigt.

Was ist DiLoCo und warum war es notwendig?

DiLoCo (Distributed Low-Communication) ist eine Methode, die DeepMind 2023 vorgestellt und während 2024 verfeinert hat. Sie löst ein grundlegendes Problem beim modernen KI-Training — den Unterschied in der Netzwerkbandbreite innerhalb und zwischen Rechenzentren.

Innerhalb eines einzelnen Rechenzentrums sind GPUs durch ultraschnelle Verbindungen (NVLink, InfiniBand) verbunden, die Hunderte von Gbit/s pro Knoten erreichen. Wenn das Training jedoch über mehrere geografisch verteilte Rechenzentren verteilt werden soll, ist die Bandbreite zwischen ihnen 10 bis 100-mal geringer, und die Latenz erheblich höher.

Klassische Data-Parallel-Algorithmen erfordern häufige Gradientensynchronisierung — Bandbreite, die innerhalb eines Rechenzentrums, aber nicht zwischen ihnen vorhanden ist. DiLoCo löst dieses Problem durch lokale Optimierungsschritte, die ohne Synchronisierung ausgeführt werden, wobei akkumulierte Gradienten nur gelegentlich ausgetauscht werden.

Was ist die „Decoupled”-Innovation?

Die am 23. April vorgestellte neue Iteration führt das Konzept asynchroner Recheninseln ein. Anstatt dass alle Rechenzentren im gleichen Moment denselben Schritt ausführen, schreiten einzelne „Inseln” unabhängig voran und kommunizieren nur an wichtigen Kontrollpunkten.

Diese Entkopplung (Decoupling) von Rechen- und Kommunikationsfluss reduziert den Druck auf das Netzwerk zwischen den Rechenzentren dramatisch. Laut DeepMinds veröffentlichten Zahlen sinkt die erforderliche Bandbreite von 198 Gbit/s auf 0,84 Gbit/s — eine Reduktion um etwa 235-fach.

Was sind die Schlüsselzahlen?

DeepMind veröffentlichte drei Schlüsselmetriken:

  • Bandbreite: 198 Gbit/s → 0,84 Gbit/s über 8 Rechenzentren
  • Goodput (tatsächlicher Durchsatz nützlicher Arbeit): 88 % mit Decoupled DiLoCo gegenüber 27 % bei herkömmlichen Methoden, gemessen in einer Simulation mit 1,2 Millionen Chips bei hoher Ausfallrate
  • Genauigkeit: 64,1 % mit der neuen Methode gegenüber 64,4 % Baseline — eine Verschlechterung um 0,3 Prozentpunkte

Die dritte Zahl ist am wichtigsten. Historisch brachten verteilte Methoden große Kommunikationsgewinne, aber zu dem Preis erheblicher Einbußen bei der Modellqualität. Decoupled DiLoCo eliminiert diesen Kompromiss praktisch — die Netzwerkeinsparungen kommen zu minimalen Kosten.

Was bedeutet das in der Praxis?

Die Implikationen sind weitreichend. Das Training von Billion-Parameter-Modellen erforderte bisher ultra-vernetzte Mega-Rechenzentren oder kommerzielle Clouds mit speziell KI-optimierten Fabric-Netzwerken. Decoupled DiLoCo zeigt, dass dieselbe Arbeit über geografisch verteilte Infrastruktur geleistet werden kann — selbst über solche mit bescheidener Netzwerkbandbreite zwischen den Standorten.

Für die Open-Source-KI-Community und kleinere Labore reduziert dies den „Compute-Graben”, den derzeit Google, Microsoft und Meta innehaben. Projekte, die Zugang zu mehreren mittelgroßen GPU-Clustern haben (die nicht am selben Standort sein müssen), können nun realistischerweise das Training konkurrenzfähiger Modelle in Betracht ziehen.

Verhältnis zur Konkurrenz

Ähnliche Ansätze untersuchen auch andere. Meta FLocal versucht das verteilte Training durch eine parallele Pipeline zu optimieren, während Anthropic TurboTrain sich auf die Durchsatzoptimierung innerhalb der eigenen Infrastruktur konzentriert. Decoupled DiLoCo erscheint anhand der veröffentlichten Zahlen am aggressivsten bei der Reduzierung der Netzwerkanforderungen.

Obwohl es sich um eine Forschungsveröffentlichung handelt und nicht um offenen Code, hat Google die Praxis, solche Methoden über das JAX-Ökosystem zu öffnen. Wenn das diesmal ebenfalls geschieht, erhalten offene Forscher ein mächtiges neues Werkzeug.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.