arXiv:2606.03883: Kako zapravo izgleda struktura rezoniranja velikih jezičnih modela?
Istraživači s ETH Züricha predstavili su benchmark logičkih zagonetki i pipeline koji reasoning traceove pretvara u mjerljive grafove tvrdnji i ovisnosti. Nova metrika kvantificira efikasnost rezoniranja i otkriva razlike koje točnost i broj tokena ne razlikuju.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Reasoning modeli danas se uglavnom ocjenjuju po dva broja: jesu li dali točan odgovor i koliko su tokena potrošili. Tim s ETH Züricha — Frédéric Berdoz, Luca A. Lanzendörfer, Fabian Farestam i Roger Wattenhofer — tvrdi da ta dva broja kriju mnogo toga, te nudi alat koji zaviruje u samu strukturu rezoniranja.
Kako se mjeri struktura rezoniranja?
Autori grade skalabilni benchmark logičkih zagonetki i pipeline koji nestrukturirani reasoning trace — slijed koraka razmišljanja modela — pretvara u provjerljiv graf. U tom grafu čvorovi su pojedinačne tvrdnje, a bridovi logičke ovisnosti među njima. Tako postaje vidljivo gradi li model uredan, povezan argument ili luta u stranputice koje ne vode rješenju.
Što otkriva nova metrika?
Uz graf, autori uvode metriku koja kvantificira efikasnost rezoniranja — koliko je koncentriran logički tijek modela. Glavni nalaz njihove analize nad open-source sustavima je da strukturna mjerenja razdvajaju ponašanja koja točnost i broj tokena spajaju u jedno. Dva modela mogu imati istu točnost i sličnu duljinu odgovora, a posve različite strukture razmišljanja.
Zašto je to važno?
Praktična vrijednost je u dijagnostici. Strukturni pogled omogućuje prepoznavanje načina na koje model griješi te usporedbu kako se rezoniranje mijenja s težinom zagonetke. Rad je prihvaćen na ICML 2026, a predstavljen i na ICLR 2026 radionici o rezoniranju velikih modela, što sugerira rastući interes zajednice za mjerenje kako modeli misle, a ne samo što odgovore.
Česta pitanja
- Što je reasoning graf u ovom radu?
- Graf u kojem su čvorovi tvrdnje modela, a bridovi logičke ovisnosti među njima, dobiven pretvaranjem nestrukturiranog reasoning tracea.
- Zašto točnost i broj tokena nisu dovoljni?
- Strukturna mjerenja razdvajaju ponašanja koja točnost i broj tokena spajaju, otkrivajući kako model gradi argument, a ne samo dolazi li do rješenja.