KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac
KellyBench je nova mjera za testiranje sekvencijalnog odlučivanja: AI agenti upravljaju kladioničarskim bankrollom kroz cijelu sezonu Premier lige 2023/24, koristeći statistike, postave i tržišne kvote. Svi testirani vodeći modeli izgubili su novac, a Claude Opus 4.6 postigao je 26,5% na ekspertskoj rubrici za sofisticiranost strategije.
Što je KellyBench i kako funkcionira?
KellyBench je nova istraživačka mjera koja testira sposobnost AI agenata da donose dugoročne financijske odluke u nestabilnim uvjetima. Agenti simuliraju ulogu kladioničara kroz cijelu sezonu engleske Premier lige 2023./24. — dobivaju detaljne povijesne statistike, postave momčadi i tržišne kladioničke kvote, a zadatak im je maksimizirati vrijednost bankrolla kroz stotine uzastopnih odluka.
Za razliku od standardnih benchmarkova koji mjere točnost pojedinačnih odgovora, KellyBench testira sekvencijalno odlučivanje — svaka greška u upravljanju rizikom ima kumulativne financijske posljedice.
Što su pokazali rezultati?
Rezultati su jednoznačni: svi testirani vodeći modeli izgubili su novac u prosjeku. Ni jedan nije dostigao nulti prinos, a čak je i najjači model završio s prosječnim prinosom od -8%. Više modela u pojedinim ispitivanjima doživjelo je potpuni financijski krah — izgubili su cijeli bankroll.
Claude Opus 4.6 postigao je 26,5% na posebnoj ekspertskoj rubrici koja ocjenjuje sofisticiranost strategije — to je zasebna mjera koja ne govori o profitu, nego o tome koliko se pristup agenta razlikuje od naivnog klađenja.
Zašto je ovo važno za razvoj AI modela?
Sportsko klađenje nije samo o predviđanju pobjednika — zahtijeva razumijevanje teorije vjerojatnosti, upravljanje rizikom kroz serije gubitaka i prilagodbu strategije promjenjivim tržišnim uvjetima. KellyBench otkriva da trenutni jezični modeli, bez obzira na opće sposobnosti, imaju značajne slabosti u dugoročnom financijskom rasuđivanju — sposobnosti koja je ključna i za mnoge stvarne poslovne primjene.
Česta pitanja
- Što mjeri KellyBench i po čemu se razlikuje od standardnih AI benchmarkova?
- KellyBench testira dugoročno sekvencijalno odlučivanje u nestabilnim tržišnim uvjetima — ne jednokratne odgovore, nego sposobnost upravljanja rizikom kroz stotine uzastopnih odluka s financijskim posljedicama.
- Koji je bio rezultat najboljeg modela?
- Ni jedan model nije bio profitabilan — čak je i najjači postigao prosječan prinos od -8%, a više modela doživjelo je potpuni financijski krah u pojedinim ispitivanjima.
- Što znači Claudeov rezultat od 26,5% na ekspertskoj rubrici?
- Ekspertska rubrika ocjenjuje sofisticiranost strategije uspoređujući poteze agenta s onim što bi napravio iskusan klađač — 26,5% znači da Claude Opus 4.6 pokazuje djelomično razumijevanje principa upravljanja bankrollom, ali daleko ispod razine kompetentnog čovjeka.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
GitHub povlači GPT-5.2 i GPT-5.2-Codex iz Copilota 1. lipnja 2026. — migracija na GPT-5.5 i GPT-5.3-Codex
NIST CAISI evaluacija DeepSeek V4 Pro: 8 mjeseci zaostatka za frontier US modelima na 9 benchmarka u 5 domena
Anthropic zatvara 1M context beta za Sonnet 4.5 i Sonnet 4 — migracija na 4.6 obavezna