arXiv:2606.17005: Bayesov okvir za reviziju otkriva da ljestvice AI modela kriju nekompatibilne povijesti
Rad predstavlja Bayesov okvir za reviziju koji pokazuje da jedan konačni snimak ljestvice s 1.000 sustava može odgovarati višestrukim nekompatibilnim povijesnim putanjama, s vremenima konvergencije od 23 do 75 koraka. Oslanjajući se na arhivirane podatke LiveBencha, Open LLM Leaderboarda v2, LMArene, GAIA-e i tau-bencha, autor predlaže 'archive-and-adjudication' protokol za rekonstrukciju povijesti ocjenjivanja i odbacivanje nepotkrijepljenih tvrdnji o frontier modelima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi preprint donosi Bayesov okvir za reviziju evaluacijskih ljestvica i upozorava da javne ljestvice AI modela mogu skrivati međusobno nespojive priče o napretku.
Koji problem rad otkriva?
Autor pokazuje da je jedan konačni snimak ljestvice s 1.000 sustava kompatibilan s višestrukim nekompatibilnim povijesnim putanjama. Drugim riječima, isti trenutni poredak može proizaći iz vrlo različitih razvojnih trajektorija — s vremenima konvergencije do zadanih pragova performansi od svega 23 koraka u jednom scenariju do 75 u drugom. Time se dovodi u pitanje izvođenje zaključaka o brzini napretka iz samo zadnjeg stanja ljestvice.
Na kojim se podacima analiza temelji?
Rad se oslanja na arhivirane podatke iz pet poznatih evaluacijskih izvora: LiveBench, Open LLM Leaderboard v2, LMArena, GAIA i tau-bench. Na temelju njih autor izlaže rizike selektivnog izvještavanja i naknadnih revizija benchmarka, koji mogu iskriviti percepciju napretka.
Što autor predlaže?
Predloženo rješenje je archive-and-adjudication protokol — sustavno arhiviranje stanja ljestvica i njihovo naknadno prosuđivanje kako bi se rekonstruirala povijest ocjenjivanja i odbacile nepotkrijepljene tvrdnje o frontier modelima. Prijedlog je izravno relevantan za zahtjeve EU AI Akta o transparentnosti i reviziji frontier modela od trećih strana.
Česta pitanja
- Što pokazuje ovaj Bayesov okvir?
- Da jedan snimak ljestvice može odgovarati nekompatibilnim povijestima razvoja, s vremenima konvergencije od 23 do 75 koraka.
- Što je 'archive-and-adjudication' protokol?
- Metoda za rekonstrukciju povijesti ocjenjivanja i odbacivanje nepotkrijepljenih tvrdnji o napretku frontier modela.
Povezane vijesti
arXiv:2606.16723: AgentFairBench mjeri demografsku diskriminaciju u akcijama LLM agenata
UK AI Safety Institute: Sporazum s australskim AISI-jem o zajedničkoj evaluaciji i razmjeni istraživanja
UK AI Safety Institute: Nadzor nad naprednim AI sustavima postaje sve teži — 20+ putanja degradacije identificirano