arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje
CUSP benchmark testira sposobnost AI modela da predviđa znanstvene proboje na bazi od 4.700 događaja. Frontier modeli (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identificiraju plausibilne smjerove istraživanja, ali sustavno pogađaju ishode i timing s prekomjernom sigurnošću. Dodatan pre-cutoff kontekst ne pomaže — limitacija je strukturalna, ne informacijska.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
ArXiv preprint objavljen 21. svibnja 2026. predstavlja CUSP (Curated Scientific Predictions), benchmark za evaluaciju sposobnosti AI modela da predviđa znanstvene proboje. Baza sadrži 4.700 znanstvenih događaja iz četiri domene: biomedicina, fizika, klimatologija i AI istraživanje. Frontier modeli — GPT-5, Claude Opus 4.7 i Gemini 3 Pro — testirani su na sposobnost da svakom događaju dodijele vjerojatnost ishoda, koristeći pre-cutoff kontekst (sve što je javno bilo poznato u trenutku prije ishoda).
Kako CUSP formulira pitanja?
Svaki od 4.700 događaja u bazi formuliran je kao binarno pitanje s poznatim ishodom: “Hoće li mRNA vakcina protiv malarije postići >70 posto efikasnosti u fazi 3 do listopada 2024?” “Hoće li open-source LLM s ≥1T parametara biti objavljen do prosinca 2025?” “Hoće li atmosferska CO₂ koncentracija prijeći 425 ppm do prosinca 2024?”
Model dobiva pristup svim javno dostupnim informacijama do trenutka cutoff-a (datuma prije nego što je ishod bio poznat) i traži se da procijeni vjerojatnost da-ishoda. Performans se mjeri Brier score-om (kalibracija + diskriminacija) i kalibracijskom curve-om koja pokazuje koliko se predikcije slažu sa stvarnim učestalostima ishoda.
Što su rezultati za frontier modele?
Sva tri frontier modela postižu Brier score između 0,18 i 0,21 (niži je bolje, perfect je 0). Za usporedbu, naivni “uvijek 50 posto” baseline daje 0,25, a ljudski domain expert prosjek je 0,14. Modeli su značajno bolji od slučaja ali zaostaju za ljudskim ekspertima.
Glavna patologija je overconfidence. Model označi predikciju s 90 posto sigurnosti, ali stvarna stopa uspjeha takvih predikcija je 60-70 posto. U opsegu 95-99 posto sigurnosti (gdje model tvrdi gotovo sigurnost), stvarna stopa uspjeha pada na 65 posto za GPT-5 i 71 posto za Claude Opus 4.7. To znači da kad model kaže “skoro sigurno se hoće dogoditi”, treba zapravo izbrojati to kao ~70 posto vjerojatnost.
Što znači “limitacija je strukturalna”?
Autori su testirali ako dodatni pre-cutoff kontekst pomaže. Pomogli su modelima dodatnim relevantnim arXiv papelima, news arhivama i ekspertskim komentarima — svi pre-cutoff, dakle ništa što “leaked” stvarni ishod. Performans se nije značajno poboljšao. Brier score je padao s 0,21 na 0,19 — marginalna razlika.
Autori interpretiraju ovo da limitacija nije manjak informacija. Limitacija je strukturalna: modeli ne razlikuju “znanstveno plausibilno” od “stvarno će se dogoditi”. Kad model čita 50 papera o obećavajućoj mRNA vakcini protiv malarije, on detektira plausibility ali ne može procijeniti operativne barijere — koliko će dugo trajati phase 3, kako će se odazvati FDA, hoće li sponzori imati budžet za scale. Te informacije postoje u javnom prostoru ali nisu u formatu koji model zna izvući.
Što ovo mijenja za upotrebu AI-a u znanosti?
Praktične implikacije za AI-assisted forecasting su konkretne. Prvo, ne treba se oslanjati na AI točke procjene vjerojatnosti — treba koristiti AI za identifikaciju relevantnih signala (papers, podataka, ekspertskih iskaza) i prepustiti ljudskom forecasteru integraciju. Drugo, ako se AI koristi za forecasting, kalibracija mora biti dodatno verificirana — model koji kaže “90 posto sigurnosti” treba se interpretirati kao “70 posto” dok se ne pokaže bolji.
Treće, autori predlažu da se za scientific forecasting koristi structured prompting koji eksplicitno traži od modela da nabroji barijere i razloge zašto se predikcija MOŽDA neće dogoditi — to pomaže smanjiti overconfidence iako ne eliminira problem.
Autori najavljuju da će CUSP biti ažuriran kvartalno s novim događajima i da će se rezultati objavljivati javno za sve frontier modele.
Česta pitanja
- Što je CUSP benchmark?
- CUSP (Curated Scientific Predictions) je benchmark s 4.700 znanstvenih događaja iz biomedicine, fizike, klimatologije i AI istraživanja. Svaki događaj je formuliran kao binarno pitanje (hoće li se X dogoditi do Y) s poznatim ishodom — model dobiva pre-cutoff kontekst i ocjenjuje vjerojatnost.
- Što znači prekomjerna sigurnost (overconfidence)?
- Model je prekomjerno siguran kad svoje predikcije rangira s visokom vjerojatnošću (npr. 90 posto) ali stvarna stopa uspjeha tih predikcija je niža (npr. 60 posto). Frontier modeli na CUSP-u pokazuju sistematsku overconfidence — kalibracija je loša u kategorijama 70-95 posto sigurnosti.
- Zašto dodatni kontekst ne pomaže?
- Autori su testirali davanje dodatnih pre-cutoff papera, news članaka i podataka — performans se nije značajno poboljšao. Zaključak: limitacija nije manjak informacija nego strukturalna nesposobnost modela da prepozna razliku između 'znanstveno plausibilno' i 'stvarno će se dogoditi'.
Povezane vijesti
arXiv:2605.22337: Meta-Soft uvodi kompresiju KV cachea kroz composable meta-tokene i naučljive ortogonalne baze
GitHub: Gartner Magic Quadrant 2026 — GitHub Copilot Leader treću godinu zaredom za Enterprise AI Coding Agents
arXiv:2605.21427: PALS — power-aware LLM serving za MoE modele postiže +26.3% energetske efikasnosti i 4-7× manje QoS povreda