Google: DiffusionGemma 26B — 4× schnellere Textgenerierung durch Diffusionsansatz
DiffusionGemma ist Googles 26B-MoE-Modell, das Text durch einen Diffusionsansatz generiert — parallel statt sequenziell. Es erreicht mehr als 1.000 Tokens pro Sekunde auf einer einzelnen H100-GPU, bis zu 4× schneller als autoregressive Standardmodelle, mit einem Qualitätskompromiss gegenüber Gemma 4.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Google hat DiffusionGemma veröffentlicht — ein 26B-Modell, das Text grundlegend anders generiert als alle bisher verbreiteten Sprachmodelle.
Was bedeutet Diffusionstextgenerierung?
Diffusionstextgenerierung funktioniert nach dem entgegengesetzten Prinzip klassischer autoregressiver Modelle wie GPT oder Standard-Gemma 4. Anstatt Token für Token sequenziell zu generieren, erzeugt DiffusionGemma in jedem Forward-Pass einen gesamten Block von 256 Tokens parallel. Das Ergebnis ist ein dramatischer Durchsatzanstieg auf moderner GPU-Hardware.
Wie viel schneller ist es tatsächlich?
Auf einer einzelnen NVIDIA H100-GPU erreicht das Modell mehr als 1.000 Tokens pro Sekunde. Auf einer Verbrauchergrafikarte RTX 5090 beträgt die Geschwindigkeit 700+ Tokens pro Sekunde. Laut Googles Messungen ist das bis zu 4× schneller als vergleichbare autoregressive Modelle auf derselben GPU — ein Unterschied, der besonders bei langen Generierungen oder hohen Durchsatzanforderungen deutlich wird.
Zugänglichkeit und Kompromisse
DiffusionGemma ist als Open-Source-Modell unter der Apache-2.0-Lizenz verfügbar. Die quantisierte Version passt in nur 18 GB VRAM, was sie selbst auf Mid-Range-Verbrauchergrafikarten praktikabel macht. Das Modell ist auf Hugging Face, Google Cloud Model Garden und der NVIDIA-NIM-Plattform verfügbar.
Architektur: MoE mit 3,8B aktiven Parametern
Trotz einer Gesamtgröße von 26B Parametern verwendet DiffusionGemma eine Mixture-of-Experts-Architektur (MoE) — bei jedem Inferenzschritt werden nur 3,8B Parameter aktiviert. Das senkt die Rechenkosten pro Aufruf und erleichtert den Einsatz auf begrenzten Ressourcen.
Der Preis der Geschwindigkeit
Google verheimlicht den Kompromiss nicht: Die Textqualität ist etwas niedriger als beim Standard-Gemma 4. DiffusionGemma wurde für Szenarien entwickelt, in denen Durchsatz entscheidend ist — Massengenerierungen, Streaming-Anwendungen, Edge-Inferenz — und nicht für Aufgaben, die maximale Präzision erfordern. Für Produktionsanwendungen, bei denen Qualität Priorität hat, bleibt Gemma 4 die bessere Wahl.
Häufig gestellte Fragen
- Was ist Diffusionstextgenerierung?
- Bei der Diffusionstextgenerierung erzeugt das Modell ganze Token-Blöcke in einem einzigen Durchlauf parallel — im Gegensatz zu autoregressiven Modellen, die Token für Token sequenziell generieren.
- Ist DiffusionGemma 26B qualitativ gleichwertig mit Gemma 4?
- Nein — Google gibt explizit an, dass die Qualität etwas niedriger ist als beim Standard-Gemma 4. DiffusionGemma ist auf Geschwindigkeit optimiert, und der Qualitätskompromiss ist eine bewusste Designentscheidung.
Verwandte Nachrichten
arXiv:2606.24510: RaDaR — spezialisiertes 32B Reasoning-LLM beschleunigt Seltene-Krankheiten-Diagnose im RCT
arXiv:2606.24014: RL-Training im Gesundheitsbereich überträgt Alignment auf 80 %+ OOD-Benchmarks
Google: Gemini 3.5 Live Translate — Sprach-zu-Sprach-Übersetzung in 70+ Sprachen in Echtzeit