🟢 🤖 Modeli Objavljeno: · 2 min čitanja ·

arXiv:2606.20543: Prostorno spekulativno dekodiranje ubrzava generiranje slika 13,3×

arXiv:2606.20543 ↗

Urednička ilustracija: Prostorno spekulativno dekodiranje ubrzava generiranje slika 13,3×

SSD (Spatially Speculative Decoding) je nova metoda koja istovremeno predviđa horizontalni i vertikalni susjed piksela u autoregresivnom generiranju slika, čime postiže do 13,3× ubrzanje bez gubitka vizualne kvalitete na DPG-Bench i GenEval benchmarkima.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Autoregresivno generiranje slika dobiva 2D superpotenciju

Autori Shilong Xiang, Zirui Zhang, Lijun Yu i Chengzhi Mao objavili su 19. lipnja 2026. rad arXiv:2606.20543 koji uvodi Spatially Speculative Decoding (SSD) — metodu koja preispituje temeljnu pretpostavku autoregresivnih vizualnih modela.

Klasični autoregresivni modeli generiraju slike token po token, u ravnom 1D nizu. SSD taj pristup razbija: umjesto jednog tokena, simultano predviđa dva prostorno susjedna tokena — horizontalnog susjeda i tokena direktno ispod. Time eksploatira dvodimenzionalnu strukturu slike i smanjuje ukupan broj dekodirnih koraka.

Ubrzanje 13,3× uz nepromijenjenu vizualnu kvalitetu

Evaluacija na DPG-Bench i GenEval benchmarkima potvrđuje do 13,3× ubrzanje u autoregresivnom generiranju slika. Ključno: vizualna kvaliteta ostaje visoka — SSD ne žrtvuje vjernost slike za brzinu, što je dosad bio tipičan kompromis pri agresivnim optimizacijama dekodiranja.

Adresira memory wall — bottleneck visoke rezolucije

SSD direktno cilja memory wall problem: pri generiranju slika visoke rezolucije, klasično serijsko dekodiranje postaje kritično usko grlo zbog eksponencijalnog rasta broja tokena. Prostorno spekulativni pristup taj problem ublažava strukturno, a ne samo inženjerski.

Usporedba s dosadašnjim pristupima

Dok standardni spekulativni dekoderi u NLP-u ubrzavaju sekvencijalne jezične modele predlaganjem više tokena u jednom koraku, SSD specifično eksploatira 2D topologiju slika — dimenziju koju jezični spekulativni dekoderi nemaju. Rad se razlikuje od kompresijskih metoda (kvantizacija, pruning) jer ne mijenja parametre modela, već strategiju inferencije.

Rad je predan 18. lipnja i objavljen 19. lipnja 2026.

Česta pitanja

Što je Spatially Speculative Decoding i kako se razlikuje od klasičnog autoregresivnog dekodiranja?
SSD istovremeno predviđa dva tokena — susjedni horizontalni i susjedni vertikalni — koristeći 2D prostornu strukturu slike, umjesto da tretira sliku kao ravni 1D niz tokena. To eliminira serijski bottleneck i višestruko smanjuje broj dekodirnih koraka.
Na kojim benchmarkima je SSD evaluiran i koji su rezultati?
Metoda je testirana na DPG-Bench i GenEval benchmarkima gdje postiže do 13,3× ubrzanje autoregresivnog generiranja slika uz održanu visoku vizualnu kvalitetu.
Koji problem SSD rješava u generiranju slika visoke rezolucije?
SSD adresira tzv. memory wall bottleneck koji se javlja pri autoregresivnom generiranju visoke rezolucije, gdje serijska priroda klasičnih metoda postaje usko grlo zbog ogromnog broja tokena.