arXiv:2605.22681: CUSP-Benchmark zeigt, dass Frontier-Modelle wissenschaftliche Durchbrüche nicht zuverlässig vorhersagen können
Der CUSP-Benchmark testet die Fähigkeit von KI-Modellen, wissenschaftliche Durchbrüche aus einer Datenbank mit 4.700 Ereignissen vorherzusagen. Frontier-Modelle (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identifizieren plausible Forschungsrichtungen, schätzen Ergebnisse und Timing jedoch systematisch mit übermäßiger Sicherheit falsch ein. Zusätzlicher Pre-Cutoff-Kontext hilft nicht — die Einschränkung ist struktureller Natur.