RACER: Training-free metoda koja udvostručuje brzinu LLM inferencije kombinirajući retrieval i logits draft strategije
Zašto je bitno
RACER je training-free metoda za ubrzanje velikih jezičnih modela koja kombinira retrieval-based i logits-based drafting strategije za speculative decoding. Postiže više od 2× ubrzanje nad autoregresivnim dekodiranjem, nadmašuje sve prethodne training-free metode i prihvaćen je na ACL 2026 Findings. Testirana je na Spec-Bench, HumanEval i MGSM-ZH benchmarcima.
Što je speculative decoding i zašto je važan?
Speculative decoding (spekulativno dekodiranje) je tehnika za ubrzanje velikih jezičnih modela u kojoj manji, brži “draft” model predlaže nekoliko budućih tokena odjednom, a veliki glavni model ih zatim verificira u jednom forward prolazu. Ako su prijedlozi točni, glavni model preskače većinu koraka autoregresivne generacije — što daje ubrzanje bez gubitka kvalitete.
Problem je što kvaliteta draft modela ograničava ubrzanje: ako draft često griješi, verifikacija ih odbija i korist se gubi. Tradicionalni pristup traži ili trening dodatnog draft modela, ili složene heuristike.
Kako RACER radi?
RACER (Retrieval-Augmented Contextual Rapid Speculative Decoding) kombinira dvije draft strategije koje se međusobno dopunjuju:
-
Retrieval-based drafting — za dijelove odgovora koji su rutinski ili se pojavljuju u trening podacima, RACER dohvaća slične sekvence iz korpusa i koristi ih kao draft. Autori to zovu “pouzdana sidra” — za predvidljive segmente retrieval daje točne prijedloge.
-
Logits-based drafting — za kreativnije ili manje predvidljive dijelove, RACER koristi logit vjerojatnosti samog modela za generiranje drafta. Autori to zovu “fleksibilna ekstrapolacija” — za situacije gdje retrieval nije pouzdan.
Ključno je da cijela metoda radi bez ikakvog dodatnog treniranja — primijeni se na postojeći model i odmah daje ubrzanje.
Koliko brže zaista?
Na tri benchmarka rezultati su konzistentni:
- Spec-Bench: >2× ubrzanje nad autoregresivnim baselineom
- HumanEval (kod generacija): >2× ubrzanje
- MGSM-ZH (matematika na kineskom): >2× ubrzanje
RACER nadmašuje sve prethodne training-free metode speculative decodinga, uključujući jednostavne retrieval-based i logits-based pristupe u izolaciji. Kombinacija daje veći boost jer pokriva različite režime generiranja.
Što developeri mogu odmah iskoristiti?
RACER je prihvaćen na ACL 2026 Findings, što znači da će kod vrlo vjerojatno biti dostupan u službenom repozitoriju. Za inženjere koji pokreću vlastite LLM inference servere (vLLM, llama.cpp, TensorRT-LLM) ovakva metoda znači:
- 2× brža generacija bez rekonfiguracije modela
- Nema trening troškova — nije potrebno LoRA, RLHF ili dodatni draft model
- Kompatibilnost s postojećim kvantizacijama i optimizacijama
Za produkcijske LLM workloade (customer support, code assistants, batch inference) 2× ubrzanje direktno se pretvara u upola manje GPU troškova uz istu propusnost.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic i NEC grade Japanovu najveću AI inženjersku radnu snagu — Claude za 30.000 NEC zaposlenika
AWS: multimodalni biološki foundation modeli ubrzavaju otkrivanje lijekova za 50 posto i dijagnostiku za 90 posto
CNCF: infrastrukturni inženjer migrirao 60+ Kubernetes resursa za 30 minuta uz pomoć AI agenta