Bayesov audit otkriva mane AI ljestvica

Rad predstavlja Bayesov okvir za reviziju koji pokazuje da jedan konačni snimak ljestvice s 1.000 sustava može odgovarati višestrukim nekompatibilnim povijesnim putanjama, s vremenima konvergencije od 23 do 75 koraka. Oslanjajući se na arhivirane podatke LiveBencha, Open LLM Leaderboarda v2, LMArene, GAIA-e i tau-bencha, autor predlaže 'archive-and-adjudication' protokol za rekonstrukciju povijesti ocjenjivanja i odbacivanje nepotkrijepljenih tvrdnji o frontier modelima.

Novi preprint donosi Bayesov okvir za reviziju evaluacijskih ljestvica i upozorava da javne ljestvice AI modela mogu skrivati međusobno nespojive priče o napretku.

Koji problem rad otkriva?

Autor pokazuje da je jedan konačni snimak ljestvice s 1.000 sustava kompatibilan s višestrukim nekompatibilnim povijesnim putanjama. Drugim riječima, isti trenutni poredak može proizaći iz vrlo različitih razvojnih trajektorija — s vremenima konvergencije do zadanih pragova performansi od svega 23 koraka u jednom scenariju do 75 u drugom. Time se dovodi u pitanje izvođenje zaključaka o brzini napretka iz samo zadnjeg stanja ljestvice.

Na kojim se podacima analiza temelji?

Rad se oslanja na arhivirane podatke iz pet poznatih evaluacijskih izvora: LiveBench, Open LLM Leaderboard v2, LMArena, GAIA i tau-bench. Na temelju njih autor izlaže rizike selektivnog izvještavanja i naknadnih revizija benchmarka, koji mogu iskriviti percepciju napretka.

Što autor predlaže?

Predloženo rješenje je archive-and-adjudication protokol — sustavno arhiviranje stanja ljestvica i njihovo naknadno prosuđivanje kako bi se rekonstruirala povijest ocjenjivanja i odbacile nepotkrijepljene tvrdnje o frontier modelima. Prijedlog je izravno relevantan za zahtjeve EU AI Akta o transparentnosti i reviziji frontier modela od trećih strana.

Česta pitanja

Što pokazuje ovaj Bayesov okvir?

Da jedan snimak ljestvice može odgovarati nekompatibilnim povijestima razvoja, s vremenima konvergencije od 23 do 75 koraka.

Što je 'archive-and-adjudication' protokol?

Metoda za rekonstrukciju povijesti ocjenjivanja i odbacivanje nepotkrijepljenih tvrdnji o napretku frontier modela.

arXiv:2606.17005: Bayesov okvir za reviziju otkriva da ljestvice AI modela kriju nekompatibilne povijesti

Koji problem rad otkriva?

Na kojim se podacima analiza temelji?

Što autor predlaže?

Česta pitanja

Izvori

Povezane vijesti