arXiv:2606.25524: Cliff Tokens — pojedinačni tokeni koji okidaju neuspjeh u matematičkom reasoningu
Cliff tokeni su pojedinačni tokeni u izlazu LLM-a gdje vjerojatnost uspješnog matematičkog zaključivanja naglo pada. Istraživači su razvili metodu detekcije i pokazali da uklanjanje prvog cliff tokena vraća točnost gotovo na savršenu razinu, a Cliff-DPO trening daje +6,6 postotnih bodova.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što su cliff tokeni?
Cliff token — doslovno token-litica — je pojedinačni token u chain-of-thought izlazu jezičnog modela (niz međukoraka koje model koristi za rješavanje zadatka) gdje vjerojatnost uspješnog dolaska do točnog odgovora naglo pada. Istraživači Jaeyong Ko, Pilsung Kang i Yukyung Lee identificirali su ove kritične točke statističkom analizom: dvoproporcijskim z-testom koji uspoređuje uspješnost odgovora prije i nakon svakog pojedinog tokena u nizu.
Zašto je jedan token toliko važan?
Istraživanje je obuhvatilo 7 modela i 3 matematička benchmarka — GSM1K, MATH500 i AIME 2025. Rezultati su iznenađujući: uklanjanje samo prvog cliff tokena i novo uzorkovanje vraća pass@64 (udio točnih odgovora u 64 pokušaja) na 1,0, u usporedbi s originalnih 0,71–1,00 ovisno o modelu. Razlika nije zanemariva — radi se o prelasku iz zone nesigurnog zaključivanja u potpuno pouzdanu zonu.
Taksonomija i primjena
Autori razlikuju tri tipa cliff tokena: deterministički (greška je neizbježna), nesigurni (model oklijeva) i slučajno-promašeni (sampled-off). Ključni nalaz: optimizacija na nesigurnim i slučajno-promašenim cliff tokenima poboljšava reasoning, dok deterministički ne reagiraju na trening. Na temelju toga razvijen je Cliff-DPO — metoda preferencijalnog treninga koja postiže +6,6 postotnih bodova točnosti na GSM8K skupu, što je konkretno poboljšanje bez promjene arhitekture modela.
Česta pitanja
- Što je cliff token i zašto je važan?
- Cliff token je pojedinačni token u chain-of-thought izlazu modela gdje vjerojatnost točnog završetka naglo pada — poput ruba litice. Identifikacija tih točaka otkriva precizne mehanizme neuspjeha u matematičkom reasoningu.
- Kako Cliff-DPO poboljšava točnost modela?
- Cliff-DPO je metoda preferencijalnog optimiranja koja trenira model na primjerima s i bez cliff tokena; rezultat je poboljšanje točnosti do +6,6 postotnih bodova na GSM8K skupu.