KellyBench: AI i kladionice — svi modeli u minusu

KellyBench je nova mjera za testiranje sekvencijalnog odlučivanja: AI agenti upravljaju kladioničarskim bankrollom kroz cijelu sezonu Premier lige 2023/24, koristeći statistike, postave i tržišne kvote. Svi testirani vodeći modeli izgubili su novac, a Claude Opus 4.6 postigao je 26,5% na ekspertskoj rubrici za sofisticiranost strategije.

Što je KellyBench i kako funkcionira?

KellyBench je nova istraživačka mjera koja testira sposobnost AI agenata da donose dugoročne financijske odluke u nestabilnim uvjetima. Agenti simuliraju ulogu kladioničara kroz cijelu sezonu engleske Premier lige 2023./24. — dobivaju detaljne povijesne statistike, postave momčadi i tržišne kladioničke kvote, a zadatak im je maksimizirati vrijednost bankrolla kroz stotine uzastopnih odluka.

Za razliku od standardnih benchmarkova koji mjere točnost pojedinačnih odgovora, KellyBench testira sekvencijalno odlučivanje — svaka greška u upravljanju rizikom ima kumulativne financijske posljedice.

Što su pokazali rezultati?

Rezultati su jednoznačni: svi testirani vodeći modeli izgubili su novac u prosjeku. Ni jedan nije dostigao nulti prinos, a čak je i najjači model završio s prosječnim prinosom od -8%. Više modela u pojedinim ispitivanjima doživjelo je potpuni financijski krah — izgubili su cijeli bankroll.

Claude Opus 4.6 postigao je 26,5% na posebnoj ekspertskoj rubrici koja ocjenjuje sofisticiranost strategije — to je zasebna mjera koja ne govori o profitu, nego o tome koliko se pristup agenta razlikuje od naivnog klađenja.

Zašto je ovo važno za razvoj AI modela?

Sportsko klađenje nije samo o predviđanju pobjednika — zahtijeva razumijevanje teorije vjerojatnosti, upravljanje rizikom kroz serije gubitaka i prilagodbu strategije promjenjivim tržišnim uvjetima. KellyBench otkriva da trenutni jezični modeli, bez obzira na opće sposobnosti, imaju značajne slabosti u dugoročnom financijskom rasuđivanju — sposobnosti koja je ključna i za mnoge stvarne poslovne primjene.

Česta pitanja

Što mjeri KellyBench i po čemu se razlikuje od standardnih AI benchmarkova?

KellyBench testira dugoročno sekvencijalno odlučivanje u nestabilnim tržišnim uvjetima — ne jednokratne odgovore, nego sposobnost upravljanja rizikom kroz stotine uzastopnih odluka s financijskim posljedicama.

Koji je bio rezultat najboljeg modela?

Ni jedan model nije bio profitabilan — čak je i najjači postigao prosječan prinos od -8%, a više modela doživjelo je potpuni financijski krah u pojedinim ispitivanjima.

Što znači Claudeov rezultat od 26,5% na ekspertskoj rubrici?

Ekspertska rubrika ocjenjuje sofisticiranost strategije uspoređujući poteze agenta s onim što bi napravio iskusan klađač — 26,5% znači da Claude Opus 4.6 pokazuje djelomično razumijevanje principa upravljanja bankrollom, ali daleko ispod razine kompetentnog čovjeka.

KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac

Što je KellyBench i kako funkcionira?

Što su pokazali rezultati?

Zašto je ovo važno za razvoj AI modela?

Česta pitanja

Izvori

Povezane vijesti