Infrastruktura

Spekulativno dekodiranje

Ubrzanje inferencije u kojem mali nacrtni model predlaže više tokena, a veliki model ih paralelno provjerava i prihvaća, uz isti izlaz.

Spekulativno dekodiranje (speculative decoding) je tehnika ubrzanja inferencije kod koje mali, brzi „nacrtni” model predlaže više budućih tokena odjednom, a veliki ciljni model ih potom provjerava u jednom prolazu.

Veliki jezični modeli generiraju jedan po jedan token, što je sporo jer svaki korak zahtijeva puni prolaz kroz mrežu. Spekulativno dekodiranje to razbija: jeftin nacrtni model (često destilirana ili manja inačica) pogađa, primjerice, 3–8 sljedećih tokena, a ciljni model paralelno računa njihove vjerojatnosti. Modificirano odbojno uzorkovanje prihvaća predviđene tokene sve dok se slažu s ciljnom distribucijom, a prvi pogrešni token ispravlja. Ključno je da je izlaz matematički identičan običnom dekodiranju.

Metodu su 2022. predstavili Leviathan i suradnici (Google Research), a od 2024. postala je standard u produkcijskom posluživanju modela — podržavaju je vLLM, NVIDIA TensorRT-LLM, SGLang i drugi. Tipično donosi 2–3× ubrzanje (varijante poput Medusa i EAGLE i više) bez gubitka kvalitete, što ju čini jednom od najvažnijih optimizacija latencije.

Izvori

Vidi također