🟢 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2606.20543: Räumliches spekulatives Dekodieren beschleunigt Bildgenerierung um das 13,3-Fache

arXiv:2606.20543 ↗

Redaktionelle Illustration: Räumliches spekulatives Dekodieren beschleunigt die Bildgenerierung um das 13,3-Fache

SSD (Spatially Speculative Decoding) ist eine neue Methode, die beim autoregressiven Generieren von Bildern gleichzeitig den horizontalen und vertikalen Nachbarpixel vorhersagt und damit eine bis zu 13,3-fache Beschleunigung ohne Qualitätsverlust auf den Benchmarks DPG-Bench und GenEval erzielt.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Autoregrressive Bildgenerierung erhält eine 2D-Superkraft

Am 19. Juni 2026 veröffentlichten die Autoren Shilong Xiang, Zirui Zhang, Lijun Yu und Chengzhi Mao das Papier arXiv:2606.20543, das Spatially Speculative Decoding (SSD) einführt — eine Methode, die eine grundlegende Annahme autoregressiver visueller Modelle in Frage stellt.

Klassische autoregrressive Modelle generieren Bilder Token für Token in einer flachen 1D-Sequenz. SSD bricht mit diesem Ansatz: Anstatt eines einzelnen Tokens sagt das Verfahren gleichzeitig zwei räumlich benachbarte Token vorher — den horizontalen Nachbarn und den Token direkt darunter. Dadurch wird die zweidimensionale Struktur von Bildern ausgenutzt und die Gesamtzahl der Dekodierschritte erheblich reduziert.

13,3-fache Beschleunigung bei unveränderter visueller Qualität

Die Evaluierung auf den Benchmarks DPG-Bench und GenEval bestätigt eine bis zu 13,3-fache Beschleunigung beim autoregressiven Bildgenerieren. Entscheidend ist: Die visuelle Qualität bleibt hoch — SSD opfert die Bildtreue nicht zugunsten der Geschwindigkeit, was bislang der typische Kompromiss bei aggressiven Dekodierungsoptimierungen war.

Adressiert den Memory Wall — Flaschenhals bei hoher Auflösung

SSD zielt direkt auf das Memory-Wall-Problem ab: Bei der Generierung hochauflösender Bilder wird das klassische serielle Dekodieren aufgrund des exponentiellen Wachstums der Tokenanzahl zum kritischen Engpass. Der räumlich spekulative Ansatz mildert dieses Problem strukturell und nicht nur durch technische Workarounds.

Vergleich mit bisherigen Ansätzen

Während Standard-Spekulative-Decoder im NLP-Bereich sequenzielle Sprachmodelle beschleunigen, indem sie in einem Schritt mehrere Token vorschlagen, nutzt SSD gezielt die 2D-Topologie von Bildern — eine Dimension, die sprachliche spekulative Decoder nicht besitzen. Die Arbeit unterscheidet sich von Kompressionsmethoden (Quantisierung, Pruning), da sie keine Modellparameter verändert, sondern nur die Inferenzstrategie.

Das Papier wurde am 18. Juni eingereicht und am 19. Juni 2026 veröffentlicht.

Häufig gestellte Fragen

Was ist Spatially Speculative Decoding und wie unterscheidet es sich vom klassischen autoregressiven Dekodieren?
SSD sagt gleichzeitig zwei Token vorher — den horizontalen Nachbarn und den vertikalen Nachbarn — indem es die 2D-Raumstruktur des Bildes ausnutzt, anstatt das Bild als flache 1D-Tokenfolge zu behandeln. Dadurch entfällt der serielle Flaschenhals, und die Anzahl der Dekodierschritte wird deutlich reduziert.
Auf welchen Benchmarks wurde SSD evaluiert und welche Ergebnisse wurden erzielt?
Die Methode wurde auf den Benchmarks DPG-Bench und GenEval getestet und erreicht eine bis zu 13,3-fache Beschleunigung beim autoregressiven Bildgenerieren bei gleichbleibend hoher visueller Qualität.
Welches Problem löst SSD bei der Hochauflösungs-Bildgenerierung?
SSD adressiert den sogenannten Memory-Wall-Flaschenhals, der bei der autoregressiven Hochauflösungs-Bildgenerierung auftritt, wo die serielle Natur klassischer Methoden aufgrund der enormen Tokenanzahl zum kritischen Engpass wird.