🟡 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

Google: Gemini Nano auf Pixel 50%+ schneller durch eingefrorene Multi-Token-Prediktion

Editorial illustration: smartphone chip diagram showing parallel token prediction paths on Pixel device

Google hat die Gemini Nano-Inferenz auf Pixel 9 und 10 um mehr als 50% beschleunigt, indem es eingefrorene Multi-Token-Prediktion einsetzte — eine Technik, die durchschnittlich ~2 Token pro Modelldurchlauf generiert und dabei 130 MB Speicher pro Instanz einspart, ohne die Ausgabeergebnisse zu verändern.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Wie der eingefrorene MTP-Kopf Gemini Nano beschleunigt

Multi-Token-Prediktion (MTP) ist eine Technik, bei der das Modell in einem Durchlauf einen Vorschlag für mehrere Token im Voraus generiert, statt des Standardansatzes, der nur ein Token pro Aufruf produziert. Google hat eine eingefrorene Variante eingesetzt: Der MTP-Kopf führt eine Cross-Attention auf den eingefrorenen KV-Cache (temporärer Schlüssel-Wert-Speicher) des Hauptmodells aus, ohne separates Berechnen für den Drafter. Das Ergebnis — durchschnittlich ~2 zusätzliche Token pro Durchlauf — ist bit-für-bit identisch mit der Ausgabe des ursprünglichen Modells.

Wie viel schneller und wie viel sparsamer auf dem Gerät?

Die Inferenzbeschleunigung auf dem Pixel 9 beträgt mehr als 50% im Vergleich zu eigenständigen Drafter-Modellen — separaten kleineren Netzwerken, die bislang als Hilfs-Generatoren für Vorschläge dienten. Neben der Geschwindigkeit bringt die Architektur eine Speichereinsparung von 130 MB pro Instanz, was auf Mobilgeräten mit begrenztem RAM entscheidend ist. Für vorhersehbare Strukturen wie Smart Replies (intelligente Antwortenvorschläge) liegt die Akzeptanzrate für vorgeschlagene Token 55% höher als beim Standardansatz.

Zero-Copy-Architektur und Einsatz auf Pixel

Google beschreibt den Ansatz als Zero-Copy-Architektur: Der MTP-Kopf teilt den KV-Cache mit dem Hauptmodell ohne Kopieren von Zwischenergebnissen, was einen der Hauptgründe für Speicher- und Rechenaufwand bei der spekulativen Dekodierung eliminiert. Die Technik ist bereits auf Pixel 9 und Pixel 10 für zwei Funktionen eingesetzt: AI Notification Summaries (Benachrichtigungszusammenfassungen) und Proofread (Textkorrektur). Beide nutzen ein lokales On-Device-Modell ohne Datenübertragung in die Cloud.

Breiterer Kontext: On-Device-KI ohne Kompromisse

Bisher erforderten Beschleunigungen der Inferenz auf Mobilgeräten oft separate, kleinere Drafter-Modelle, die zusätzlichen Speicherbedarf und manchmal abweichende Ausgaben erzeugten. Googles Ansatz zeigt, dass ein eingefrorener MTP-Kopf in das bestehende Gemini Nano ohne Fine-Tuning von Grund auf und ohne Genauigkeitsverlust integriert werden kann — ein Schritt in Richtung On-Device-KI, die sowohl schnell als auch dem ursprünglichen Modellverhalten treu ist.

Häufig gestellte Fragen

Was ist Multi-Token-Prediktion und wie unterscheidet sie sich von der Standardgenerierung?
Standardsprachmodelle generieren ein Token pro Aufruf; Multi-Token-Prediktion (MTP) nutzt zusätzliche Köpfe, die in einem Durchlauf mehrere Token im Voraus vorschlagen, die das Hauptmodell annimmt oder ablehnt — das Ergebnis ist identisch, die Inferenz aber schneller.
Warum ist der MTP-Kopf eingefroren und was bedeutet das in der Praxis?
Eingefroren bedeutet, dass die Gewichte des MTP-Kopfs nicht zusammen mit dem Hauptmodell trainiert werden, sondern einmalig gelernt werden und fest bleiben; das ermöglicht die gemeinsame Nutzung des KV-Caches mit dem Hauptmodell ohne erneute Berechnung, was sowohl Beschleunigung als auch Speichereinsparung bringt.