arXiv:2606.19808: SEVRA selektivnom verifikacijom štedi do 91 posto tokena u rasuđivanju modela
SEVRA je kontroler opisan u radu arXiv:2606.19808 koji odlučuje kada provjeriti odgovor modela, a kada prihvatiti početnu procjenu, čime omogućuje budžetski svjesno rasuđivanje. Na benchmarku GSM8K SEVRA podiže točnost s 93,4 na 94,5 posto uz 91,2 posto manje verifikacijskih tokena, a na MATH-500 postiže 76,3 posto točnosti uz 26,8 posto manje tokena.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Rad arXiv:2606.19808 predstavlja SEVRA, kontroler za budžetski svjesno rasuđivanje velikih jezičnih modela. Verifikacija je korak u kojem model dodatno provjerava svoj odgovor, što povećava pouzdanost, ali troši tokene i vrijeme. SEVRA odlučuje kada se verifikacija isplati, a kada je dovoljno prihvatiti početnu procjenu solvera.
Rezultati u brojkama
Na benchmarku GSM8K (matematički zadaci osnovne škole) SEVRA podiže točnost s 93,4 na 94,5 posto uz čak 91,2 posto manje verifikacijskih tokena. Na težem MATH-500 postiže 76,3 posto točnosti uz 26,8 posto manje tokena od pristupa koji uvijek verificira. Usporedba pokazuje da selektivna provjera ne samo da štedi resurse, nego i blago povećava točnost.
Zašto je to bitno
SEVRA također smanjuje udio štetnih promjena — slučajeva u kojima verifikacija pokvari već ispravan odgovor — s 2,2 na 1,0 posto. Autori naglašavaju da bazni kapacitet rasuđivanja treba optimizirati prije nego što se uvedu skupe strategije verifikacije. Za sustave koji rade pod troškovnim ograničenjima, selektivna verifikacija nudi praktičan kompromis između cijene i pouzdanosti.
Česta pitanja
- Što SEVRA radi?
- SEVRA je kontroler koji odlučuje kada verificirati odgovor modela, a kada prihvatiti početnu procjenu, kako bi se uštedjeli resursi pri rasuđivanju.
- Kolike su uštede?
- Na GSM8K SEVRA troši 91,2 posto manje verifikacijskih tokena uz porast točnosti s 93,4 na 94,5 posto, a na MATH-500 postiže 76,3 posto uz 26,8 posto manje tokena.
- Smanjuje li štetne izmjene odgovora?
- Da, udio štetnih promjena ispravnog odgovora pao je s 2,2 na 1,0 posto.
Povezane vijesti
arXiv:2606.20333: SoftSkill komprimira skill-dokumente u 32 latentna tokena i diže LiveMath za 42,1 boda
arXiv:2606.19327: Rubric-conditioned self-distillation nadmašuje GRPO u treniranju reasoning modela
OpenAI: GPT-5.5 Instant donosi napredak u zdravstvenim odgovorima ChatGPT-a