SSD: 13,3× brže generiranje slika

SSD (Spatially Speculative Decoding) je nova metoda koja istovremeno predviđa horizontalni i vertikalni susjed piksela u autoregresivnom generiranju slika, čime postiže do 13,3× ubrzanje bez gubitka vizualne kvalitete na DPG-Bench i GenEval benchmarkima.

Autoregresivno generiranje slika dobiva 2D superpotenciju

Autori Shilong Xiang, Zirui Zhang, Lijun Yu i Chengzhi Mao objavili su 19. lipnja 2026. rad arXiv:2606.20543 koji uvodi Spatially Speculative Decoding (SSD) — metodu koja preispituje temeljnu pretpostavku autoregresivnih vizualnih modela.

Klasični autoregresivni modeli generiraju slike token po token, u ravnom 1D nizu. SSD taj pristup razbija: umjesto jednog tokena, simultano predviđa dva prostorno susjedna tokena — horizontalnog susjeda i tokena direktno ispod. Time eksploatira dvodimenzionalnu strukturu slike i smanjuje ukupan broj dekodirnih koraka.

Ubrzanje 13,3× uz nepromijenjenu vizualnu kvalitetu

Evaluacija na DPG-Bench i GenEval benchmarkima potvrđuje do 13,3× ubrzanje u autoregresivnom generiranju slika. Ključno: vizualna kvaliteta ostaje visoka — SSD ne žrtvuje vjernost slike za brzinu, što je dosad bio tipičan kompromis pri agresivnim optimizacijama dekodiranja.

Adresira memory wall — bottleneck visoke rezolucije

SSD direktno cilja memory wall problem: pri generiranju slika visoke rezolucije, klasično serijsko dekodiranje postaje kritično usko grlo zbog eksponencijalnog rasta broja tokena. Prostorno spekulativni pristup taj problem ublažava strukturno, a ne samo inženjerski.

Usporedba s dosadašnjim pristupima

Dok standardni spekulativni dekoderi u NLP-u ubrzavaju sekvencijalne jezične modele predlaganjem više tokena u jednom koraku, SSD specifično eksploatira 2D topologiju slika — dimenziju koju jezični spekulativni dekoderi nemaju. Rad se razlikuje od kompresijskih metoda (kvantizacija, pruning) jer ne mijenja parametre modela, već strategiju inferencije.

Rad je predan 18. lipnja i objavljen 19. lipnja 2026.

Česta pitanja

Što je Spatially Speculative Decoding i kako se razlikuje od klasičnog autoregresivnog dekodiranja?

SSD istovremeno predviđa dva tokena — susjedni horizontalni i susjedni vertikalni — koristeći 2D prostornu strukturu slike, umjesto da tretira sliku kao ravni 1D niz tokena. To eliminira serijski bottleneck i višestruko smanjuje broj dekodirnih koraka.

Na kojim benchmarkima je SSD evaluiran i koji su rezultati?

Metoda je testirana na DPG-Bench i GenEval benchmarkima gdje postiže do 13,3× ubrzanje autoregresivnog generiranja slika uz održanu visoku vizualnu kvalitetu.

Koji problem SSD rješava u generiranju slika visoke rezolucije?

SSD adresira tzv. memory wall bottleneck koji se javlja pri autoregresivnom generiranju visoke rezolucije, gdje serijska priroda klasičnih metoda postaje usko grlo zbog ogromnog broja tokena.

arXiv:2606.20543: Prostorno spekulativno dekodiranje ubrzava generiranje slika 13,3×

Autoregresivno generiranje slika dobiva 2D superpotenciju

Ubrzanje 13,3× uz nepromijenjenu vizualnu kvalitetu

Adresira memory wall — bottleneck visoke rezolucije

Usporedba s dosadašnjim pristupima

Česta pitanja

Izvori

Povezane vijesti