SEVRA: budžetski svjesno rasuđivanje, -91% tokena

SEVRA je kontroler opisan u radu arXiv:2606.19808 koji odlučuje kada provjeriti odgovor modela, a kada prihvatiti početnu procjenu, čime omogućuje budžetski svjesno rasuđivanje. Na benchmarku GSM8K SEVRA podiže točnost s 93,4 na 94,5 posto uz 91,2 posto manje verifikacijskih tokena, a na MATH-500 postiže 76,3 posto točnosti uz 26,8 posto manje tokena.

Rad arXiv:2606.19808 predstavlja SEVRA, kontroler za budžetski svjesno rasuđivanje velikih jezičnih modela. Verifikacija je korak u kojem model dodatno provjerava svoj odgovor, što povećava pouzdanost, ali troši tokene i vrijeme. SEVRA odlučuje kada se verifikacija isplati, a kada je dovoljno prihvatiti početnu procjenu solvera.

Rezultati u brojkama

Na benchmarku GSM8K (matematički zadaci osnovne škole) SEVRA podiže točnost s 93,4 na 94,5 posto uz čak 91,2 posto manje verifikacijskih tokena. Na težem MATH-500 postiže 76,3 posto točnosti uz 26,8 posto manje tokena od pristupa koji uvijek verificira. Usporedba pokazuje da selektivna provjera ne samo da štedi resurse, nego i blago povećava točnost.

Zašto je to bitno

SEVRA također smanjuje udio štetnih promjena — slučajeva u kojima verifikacija pokvari već ispravan odgovor — s 2,2 na 1,0 posto. Autori naglašavaju da bazni kapacitet rasuđivanja treba optimizirati prije nego što se uvedu skupe strategije verifikacije. Za sustave koji rade pod troškovnim ograničenjima, selektivna verifikacija nudi praktičan kompromis između cijene i pouzdanosti.

Česta pitanja

Što SEVRA radi?

SEVRA je kontroler koji odlučuje kada verificirati odgovor modela, a kada prihvatiti početnu procjenu, kako bi se uštedjeli resursi pri rasuđivanju.

Kolike su uštede?

Na GSM8K SEVRA troši 91,2 posto manje verifikacijskih tokena uz porast točnosti s 93,4 na 94,5 posto, a na MATH-500 postiže 76,3 posto uz 26,8 posto manje tokena.

Smanjuje li štetne izmjene odgovora?

Da, udio štetnih promjena ispravnog odgovora pao je s 2,2 na 1,0 posto.

arXiv:2606.19808: SEVRA selektivnom verifikacijom štedi do 91 posto tokena u rasuđivanju modela

Rezultati u brojkama

Zašto je to bitno

Česta pitanja

Izvori

Povezane vijesti