arXiv:2606.20543: Prostorno spekulativno dekodiranje ubrzava generiranje slika 13,3×
SSD (Spatially Speculative Decoding) je nova metoda koja istovremeno predviđa horizontalni i vertikalni susjed piksela u autoregresivnom generiranju slika, čime postiže do 13,3× ubrzanje bez gubitka vizualne kvalitete na DPG-Bench i GenEval benchmarkima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Autoregresivno generiranje slika dobiva 2D superpotenciju
Autori Shilong Xiang, Zirui Zhang, Lijun Yu i Chengzhi Mao objavili su 19. lipnja 2026. rad arXiv:2606.20543 koji uvodi Spatially Speculative Decoding (SSD) — metodu koja preispituje temeljnu pretpostavku autoregresivnih vizualnih modela.
Klasični autoregresivni modeli generiraju slike token po token, u ravnom 1D nizu. SSD taj pristup razbija: umjesto jednog tokena, simultano predviđa dva prostorno susjedna tokena — horizontalnog susjeda i tokena direktno ispod. Time eksploatira dvodimenzionalnu strukturu slike i smanjuje ukupan broj dekodirnih koraka.
Ubrzanje 13,3× uz nepromijenjenu vizualnu kvalitetu
Evaluacija na DPG-Bench i GenEval benchmarkima potvrđuje do 13,3× ubrzanje u autoregresivnom generiranju slika. Ključno: vizualna kvaliteta ostaje visoka — SSD ne žrtvuje vjernost slike za brzinu, što je dosad bio tipičan kompromis pri agresivnim optimizacijama dekodiranja.
Adresira memory wall — bottleneck visoke rezolucije
SSD direktno cilja memory wall problem: pri generiranju slika visoke rezolucije, klasično serijsko dekodiranje postaje kritično usko grlo zbog eksponencijalnog rasta broja tokena. Prostorno spekulativni pristup taj problem ublažava strukturno, a ne samo inženjerski.
Usporedba s dosadašnjim pristupima
Dok standardni spekulativni dekoderi u NLP-u ubrzavaju sekvencijalne jezične modele predlaganjem više tokena u jednom koraku, SSD specifično eksploatira 2D topologiju slika — dimenziju koju jezični spekulativni dekoderi nemaju. Rad se razlikuje od kompresijskih metoda (kvantizacija, pruning) jer ne mijenja parametre modela, već strategiju inferencije.
Rad je predan 18. lipnja i objavljen 19. lipnja 2026.
Česta pitanja
- Što je Spatially Speculative Decoding i kako se razlikuje od klasičnog autoregresivnog dekodiranja?
- SSD istovremeno predviđa dva tokena — susjedni horizontalni i susjedni vertikalni — koristeći 2D prostornu strukturu slike, umjesto da tretira sliku kao ravni 1D niz tokena. To eliminira serijski bottleneck i višestruko smanjuje broj dekodirnih koraka.
- Na kojim benchmarkima je SSD evaluiran i koji su rezultati?
- Metoda je testirana na DPG-Bench i GenEval benchmarkima gdje postiže do 13,3× ubrzanje autoregresivnog generiranja slika uz održanu visoku vizualnu kvalitetu.
- Koji problem SSD rješava u generiranju slika visoke rezolucije?
- SSD adresira tzv. memory wall bottleneck koji se javlja pri autoregresivnom generiranju visoke rezolucije, gdje serijska priroda klasičnih metoda postaje usko grlo zbog ogromnog broja tokena.
Izvori
Povezane vijesti
arXiv:2606.20560: DiffusionGemma jednako čitljiv kao Gemma 4 — praznina od 28,6× srušena na 1,1×
arXiv:2606.20561: TimeProVe smanjuje troškove zaključivanja nad dugim videozapisima za 93%
arXiv:2606.20008: VIMPO — pojačano učenje bez kritičara pobjeđuje GRPO na MATH-500 i AIME