arXiv:2605.22681: CUSP-Benchmark zeigt, dass Frontier-Modelle wissenschaftliche Durchbrüche nicht zuverlässig vorhersagen können
Der CUSP-Benchmark testet die Fähigkeit von KI-Modellen, wissenschaftliche Durchbrüche aus einer Datenbank mit 4.700 Ereignissen vorherzusagen. Frontier-Modelle (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identifizieren plausible Forschungsrichtungen, schätzen Ergebnisse und Timing jedoch systematisch mit übermäßiger Sicherheit falsch ein. Zusätzlicher Pre-Cutoff-Kontext hilft nicht — die Einschränkung ist struktureller Natur.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Ein arXiv-Preprint vom 21. Mai 2026 stellt CUSP (Curated Scientific Predictions) vor, einen Benchmark zur Bewertung der Fähigkeit von KI-Modellen, wissenschaftliche Durchbrüche vorherzusagen. Die Datenbank enthält 4.700 wissenschaftliche Ereignisse aus vier Domänen: Biomedizin, Physik, Klimatologie und KI-Forschung. Frontier-Modelle — GPT-5, Claude Opus 4.7 und Gemini 3 Pro — wurden auf ihre Fähigkeit getestet, jedem Ereignis eine Ergebniswahrscheinlichkeit zuzuweisen, unter Verwendung von Pre-Cutoff-Kontext.
Wie formuliert CUSP die Fragen?
Jedes der 4.700 Ereignisse wird als binäre Frage mit bekanntem Ergebnis formuliert: „Wird der mRNA-Malaria-Impfstoff bis Oktober 2024 in Phase 3 >70 % Wirksamkeit erreichen?” „Wird ein Open-Source-LLM mit ≥1 Bio. Parametern bis Dezember 2025 veröffentlicht?” Die Leistung wird mit dem Brier-Score (Kalibrierung + Diskriminierung) und einer Kalibrierungskurve gemessen.
Welche Ergebnisse erzielen Frontier-Modelle?
Alle drei Frontier-Modelle erreichen Brier-Scores zwischen 0,18 und 0,21 (niedriger ist besser, perfekt ist 0). Ein naives „immer 50 %” ergibt 0,25, der menschliche Expertenduchrschnitt liegt bei 0,14. Die Hauptpathologie ist Overconfidence: Ein Modell vergibt 90 % Konfidenz, doch die tatsächliche Erfolgsquote solcher Vorhersagen beträgt 60–70 %. Im Bereich 95–99 % Konfidenz sinkt die tatsächliche Erfolgsquote auf 65 % (GPT-5) bzw. 71 % (Claude Opus 4.7).
Was bedeutet „strukturelle Einschränkung”?
Die Autoren gaben den Modellen zusätzliche relevante arXiv-Paper, Nachrichtenarchive und Expertenkommentare — alles Pre-Cutoff. Die Leistung verbesserte sich nicht wesentlich (Brier-Score von 0,21 auf 0,19). Fazit: Die Einschränkung ist kein Informationsmangel, sondern strukturell — Modelle unterscheiden nicht zwischen „wissenschaftlich plausibel” und „wird tatsächlich eintreten.”
Was bedeutet das für den KI-Einsatz in der Wissenschaft?
Erstens: KI-Punktschätzungen zur Wahrscheinlichkeit nicht allein verwenden — KI für die Identifikation relevanter Signale nutzen, die Integration einem menschlichen Forecaster überlassen. Zweitens: KI-Kalibrierung separat prüfen — ein Modell, das „90 % Konfidenz” sagt, sollte als „~70 %” interpretiert werden. Drittens: Strukturiertes Prompting einsetzen, das das Modell explizit auffordert, Barrieren und Gegenargumente zu benennen, um Overconfidence zu reduzieren.
Die Autoren kündigen quartalsweise CUSP-Updates mit neuen Ereignissen und öffentlichen Ergebnissen für alle Frontier-Modelle an.
Häufig gestellte Fragen
- Was ist der CUSP-Benchmark?
- CUSP (Curated Scientific Predictions) ist ein Benchmark mit 4.700 wissenschaftlichen Ereignissen aus Biomedizin, Physik, Klimatologie und KI-Forschung. Jedes Ereignis wird als binäre Frage mit bekanntem Ergebnis formuliert — das Modell erhält Pre-Cutoff-Kontext und schätzt die Wahrscheinlichkeit.
- Was bedeutet übermäßige Sicherheit (Overconfidence)?
- Ein Modell ist überconfident, wenn es Vorhersagen mit hoher Wahrscheinlichkeit (z. B. 90 %) bewertet, die tatsächliche Erfolgsquote aber niedriger ist (z. B. 60 %). Frontier-Modelle auf CUSP zeigen systematische Overconfidence im Bereich 70–95 % Konfidenz.
- Warum hilft zusätzlicher Kontext nicht?
- Die Autoren testeten zusätzliche Pre-Cutoff-Paper, Nachrichtenartikel und Daten — die Leistung verbesserte sich nicht wesentlich. Fazit: Die Einschränkung ist kein Informationsmangel, sondern eine strukturelle Unfähigkeit, zwischen 'wissenschaftlich plausibel' und 'wird tatsächlich eintreten' zu unterscheiden.
Verwandte Nachrichten
arXiv:2605.22337: Meta-Soft führt KV-Cache-Komprimierung mit komponierbaren Meta-Token und lernbaren orthogonalen Basen ein
GitHub: Gartner Magic Quadrant 2026 — GitHub Copilot zum dritten Mal Leader bei Enterprise AI Coding Agents
arXiv:2605.21427: PALS — energiebewusstes LLM-Serving für MoE-Modelle erreicht +26,3 % Energieeffizienz und 4-7× weniger QoS-Verstöße