🟡 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

Google: DiffusionGemma 26B — 4× schnellere Textgenerierung durch Diffusionsansatz

Redaktionelle Illustration: abstrakte parallele Textströme, die sich aus einer Diffusionswolke formen, digitaler Stil

DiffusionGemma ist Googles 26B-MoE-Modell, das Text durch einen Diffusionsansatz generiert — parallel statt sequenziell. Es erreicht mehr als 1.000 Tokens pro Sekunde auf einer einzelnen H100-GPU, bis zu 4× schneller als autoregressive Standardmodelle, mit einem Qualitätskompromiss gegenüber Gemma 4.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Google hat DiffusionGemma veröffentlicht — ein 26B-Modell, das Text grundlegend anders generiert als alle bisher verbreiteten Sprachmodelle.

Was bedeutet Diffusionstextgenerierung?

Diffusionstextgenerierung funktioniert nach dem entgegengesetzten Prinzip klassischer autoregressiver Modelle wie GPT oder Standard-Gemma 4. Anstatt Token für Token sequenziell zu generieren, erzeugt DiffusionGemma in jedem Forward-Pass einen gesamten Block von 256 Tokens parallel. Das Ergebnis ist ein dramatischer Durchsatzanstieg auf moderner GPU-Hardware.

Wie viel schneller ist es tatsächlich?

Auf einer einzelnen NVIDIA H100-GPU erreicht das Modell mehr als 1.000 Tokens pro Sekunde. Auf einer Verbrauchergrafikarte RTX 5090 beträgt die Geschwindigkeit 700+ Tokens pro Sekunde. Laut Googles Messungen ist das bis zu 4× schneller als vergleichbare autoregressive Modelle auf derselben GPU — ein Unterschied, der besonders bei langen Generierungen oder hohen Durchsatzanforderungen deutlich wird.

Zugänglichkeit und Kompromisse

DiffusionGemma ist als Open-Source-Modell unter der Apache-2.0-Lizenz verfügbar. Die quantisierte Version passt in nur 18 GB VRAM, was sie selbst auf Mid-Range-Verbrauchergrafikarten praktikabel macht. Das Modell ist auf Hugging Face, Google Cloud Model Garden und der NVIDIA-NIM-Plattform verfügbar.

Architektur: MoE mit 3,8B aktiven Parametern

Trotz einer Gesamtgröße von 26B Parametern verwendet DiffusionGemma eine Mixture-of-Experts-Architektur (MoE) — bei jedem Inferenzschritt werden nur 3,8B Parameter aktiviert. Das senkt die Rechenkosten pro Aufruf und erleichtert den Einsatz auf begrenzten Ressourcen.

Der Preis der Geschwindigkeit

Google verheimlicht den Kompromiss nicht: Die Textqualität ist etwas niedriger als beim Standard-Gemma 4. DiffusionGemma wurde für Szenarien entwickelt, in denen Durchsatz entscheidend ist — Massengenerierungen, Streaming-Anwendungen, Edge-Inferenz — und nicht für Aufgaben, die maximale Präzision erfordern. Für Produktionsanwendungen, bei denen Qualität Priorität hat, bleibt Gemma 4 die bessere Wahl.

Häufig gestellte Fragen

Was ist Diffusionstextgenerierung?
Bei der Diffusionstextgenerierung erzeugt das Modell ganze Token-Blöcke in einem einzigen Durchlauf parallel — im Gegensatz zu autoregressiven Modellen, die Token für Token sequenziell generieren.
Ist DiffusionGemma 26B qualitativ gleichwertig mit Gemma 4?
Nein — Google gibt explizit an, dass die Qualität etwas niedriger ist als beim Standard-Gemma 4. DiffusionGemma ist auf Geschwindigkeit optimiert, und der Qualitätskompromiss ist eine bewusste Designentscheidung.