arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje
CUSP benchmark testira sposobnost AI modela da predviđa znanstvene proboje na bazi od 4.700 događaja. Frontier modeli (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identificiraju plausibilne smjerove istraživanja, ali sustavno pogađaju ishode i timing s prekomjernom sigurnošću. Dodatan pre-cutoff kontekst ne pomaže — limitacija je strukturalna, ne informacijska.