Struktura rezoniranja velikih jezičnih modela

Istraživači s ETH Züricha predstavili su benchmark logičkih zagonetki i pipeline koji reasoning traceove pretvara u mjerljive grafove tvrdnji i ovisnosti. Nova metrika kvantificira efikasnost rezoniranja i otkriva razlike koje točnost i broj tokena ne razlikuju.

Reasoning modeli danas se uglavnom ocjenjuju po dva broja: jesu li dali točan odgovor i koliko su tokena potrošili. Tim s ETH Züricha — Frédéric Berdoz, Luca A. Lanzendörfer, Fabian Farestam i Roger Wattenhofer — tvrdi da ta dva broja kriju mnogo toga, te nudi alat koji zaviruje u samu strukturu rezoniranja.

Kako se mjeri struktura rezoniranja?

Autori grade skalabilni benchmark logičkih zagonetki i pipeline koji nestrukturirani reasoning trace — slijed koraka razmišljanja modela — pretvara u provjerljiv graf. U tom grafu čvorovi su pojedinačne tvrdnje, a bridovi logičke ovisnosti među njima. Tako postaje vidljivo gradi li model uredan, povezan argument ili luta u stranputice koje ne vode rješenju.

Što otkriva nova metrika?

Uz graf, autori uvode metriku koja kvantificira efikasnost rezoniranja — koliko je koncentriran logički tijek modela. Glavni nalaz njihove analize nad open-source sustavima je da strukturna mjerenja razdvajaju ponašanja koja točnost i broj tokena spajaju u jedno. Dva modela mogu imati istu točnost i sličnu duljinu odgovora, a posve različite strukture razmišljanja.

Zašto je to važno?

Praktična vrijednost je u dijagnostici. Strukturni pogled omogućuje prepoznavanje načina na koje model griješi te usporedbu kako se rezoniranje mijenja s težinom zagonetke. Rad je prihvaćen na ICML 2026, a predstavljen i na ICLR 2026 radionici o rezoniranju velikih modela, što sugerira rastući interes zajednice za mjerenje kako modeli misle, a ne samo što odgovore.

Česta pitanja

Što je reasoning graf u ovom radu?

Graf u kojem su čvorovi tvrdnje modela, a bridovi logičke ovisnosti među njima, dobiven pretvaranjem nestrukturiranog reasoning tracea.

Zašto točnost i broj tokena nisu dovoljni?

Strukturna mjerenja razdvajaju ponašanja koja točnost i broj tokena spajaju, otkrivajući kako model gradi argument, a ne samo dolazi li do rješenja.

arXiv:2606.03883: Kako zapravo izgleda struktura rezoniranja velikih jezičnih modela?

Kako se mjeri struktura rezoniranja?

Što otkriva nova metrika?

Zašto je to važno?

Česta pitanja

Izvori

Povezane vijesti