🤖 24 AI
🟢 🏥 U praksi nedjelja, 19. travnja 2026. · 2 min čitanja

RACER: Training-free metoda koja udvostručuje brzinu LLM inferencije kombinirajući retrieval i logits draft strategije

Editorial ilustracija: paralelne trake tokena koje brže teku kroz verifikacijski kanal

Zašto je bitno

RACER je training-free metoda za ubrzanje velikih jezičnih modela koja kombinira retrieval-based i logits-based drafting strategije za speculative decoding. Postiže više od 2× ubrzanje nad autoregresivnim dekodiranjem, nadmašuje sve prethodne training-free metode i prihvaćen je na ACL 2026 Findings. Testirana je na Spec-Bench, HumanEval i MGSM-ZH benchmarcima.

Što je speculative decoding i zašto je važan?

Speculative decoding (spekulativno dekodiranje) je tehnika za ubrzanje velikih jezičnih modela u kojoj manji, brži “draft” model predlaže nekoliko budućih tokena odjednom, a veliki glavni model ih zatim verificira u jednom forward prolazu. Ako su prijedlozi točni, glavni model preskače većinu koraka autoregresivne generacije — što daje ubrzanje bez gubitka kvalitete.

Problem je što kvaliteta draft modela ograničava ubrzanje: ako draft često griješi, verifikacija ih odbija i korist se gubi. Tradicionalni pristup traži ili trening dodatnog draft modela, ili složene heuristike.

Kako RACER radi?

RACER (Retrieval-Augmented Contextual Rapid Speculative Decoding) kombinira dvije draft strategije koje se međusobno dopunjuju:

  1. Retrieval-based drafting — za dijelove odgovora koji su rutinski ili se pojavljuju u trening podacima, RACER dohvaća slične sekvence iz korpusa i koristi ih kao draft. Autori to zovu “pouzdana sidra” — za predvidljive segmente retrieval daje točne prijedloge.

  2. Logits-based drafting — za kreativnije ili manje predvidljive dijelove, RACER koristi logit vjerojatnosti samog modela za generiranje drafta. Autori to zovu “fleksibilna ekstrapolacija” — za situacije gdje retrieval nije pouzdan.

Ključno je da cijela metoda radi bez ikakvog dodatnog treniranja — primijeni se na postojeći model i odmah daje ubrzanje.

Koliko brže zaista?

Na tri benchmarka rezultati su konzistentni:

  • Spec-Bench: >2× ubrzanje nad autoregresivnim baselineom
  • HumanEval (kod generacija): >2× ubrzanje
  • MGSM-ZH (matematika na kineskom): >2× ubrzanje

RACER nadmašuje sve prethodne training-free metode speculative decodinga, uključujući jednostavne retrieval-based i logits-based pristupe u izolaciji. Kombinacija daje veći boost jer pokriva različite režime generiranja.

Što developeri mogu odmah iskoristiti?

RACER je prihvaćen na ACL 2026 Findings, što znači da će kod vrlo vjerojatno biti dostupan u službenom repozitoriju. Za inženjere koji pokreću vlastite LLM inference servere (vLLM, llama.cpp, TensorRT-LLM) ovakva metoda znači:

  • 2× brža generacija bez rekonfiguracije modela
  • Nema trening troškova — nije potrebno LoRA, RLHF ili dodatni draft model
  • Kompatibilnost s postojećim kvantizacijama i optimizacijama

Za produkcijske LLM workloade (customer support, code assistants, batch inference) 2× ubrzanje direktno se pretvara u upola manje GPU troškova uz istu propusnost.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.