arXiv CUSP: KI kann Durchbrüche nicht vorhersagen

Der CUSP-Benchmark testet die Fähigkeit von KI-Modellen, wissenschaftliche Durchbrüche aus einer Datenbank mit 4.700 Ereignissen vorherzusagen. Frontier-Modelle (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identifizieren plausible Forschungsrichtungen, schätzen Ergebnisse und Timing jedoch systematisch mit übermäßiger Sicherheit falsch ein. Zusätzlicher Pre-Cutoff-Kontext hilft nicht — die Einschränkung ist struktureller Natur.

Ein arXiv-Preprint vom 21. Mai 2026 stellt CUSP (Curated Scientific Predictions) vor, einen Benchmark zur Bewertung der Fähigkeit von KI-Modellen, wissenschaftliche Durchbrüche vorherzusagen. Die Datenbank enthält 4.700 wissenschaftliche Ereignisse aus vier Domänen: Biomedizin, Physik, Klimatologie und KI-Forschung. Frontier-Modelle — GPT-5, Claude Opus 4.7 und Gemini 3 Pro — wurden auf ihre Fähigkeit getestet, jedem Ereignis eine Ergebniswahrscheinlichkeit zuzuweisen, unter Verwendung von Pre-Cutoff-Kontext.

Wie formuliert CUSP die Fragen?

Jedes der 4.700 Ereignisse wird als binäre Frage mit bekanntem Ergebnis formuliert: „Wird der mRNA-Malaria-Impfstoff bis Oktober 2024 in Phase 3 >70 % Wirksamkeit erreichen?” „Wird ein Open-Source-LLM mit ≥1 Bio. Parametern bis Dezember 2025 veröffentlicht?” Die Leistung wird mit dem Brier-Score (Kalibrierung + Diskriminierung) und einer Kalibrierungskurve gemessen.

Welche Ergebnisse erzielen Frontier-Modelle?

Alle drei Frontier-Modelle erreichen Brier-Scores zwischen 0,18 und 0,21 (niedriger ist besser, perfekt ist 0). Ein naives „immer 50 %” ergibt 0,25, der menschliche Expertenduchrschnitt liegt bei 0,14. Die Hauptpathologie ist Overconfidence: Ein Modell vergibt 90 % Konfidenz, doch die tatsächliche Erfolgsquote solcher Vorhersagen beträgt 60–70 %. Im Bereich 95–99 % Konfidenz sinkt die tatsächliche Erfolgsquote auf 65 % (GPT-5) bzw. 71 % (Claude Opus 4.7).

Was bedeutet „strukturelle Einschränkung”?

Die Autoren gaben den Modellen zusätzliche relevante arXiv-Paper, Nachrichtenarchive und Expertenkommentare — alles Pre-Cutoff. Die Leistung verbesserte sich nicht wesentlich (Brier-Score von 0,21 auf 0,19). Fazit: Die Einschränkung ist kein Informationsmangel, sondern strukturell — Modelle unterscheiden nicht zwischen „wissenschaftlich plausibel” und „wird tatsächlich eintreten.”

Was bedeutet das für den KI-Einsatz in der Wissenschaft?

Erstens: KI-Punktschätzungen zur Wahrscheinlichkeit nicht allein verwenden — KI für die Identifikation relevanter Signale nutzen, die Integration einem menschlichen Forecaster überlassen. Zweitens: KI-Kalibrierung separat prüfen — ein Modell, das „90 % Konfidenz” sagt, sollte als „~70 %” interpretiert werden. Drittens: Strukturiertes Prompting einsetzen, das das Modell explizit auffordert, Barrieren und Gegenargumente zu benennen, um Overconfidence zu reduzieren.

Die Autoren kündigen quartalsweise CUSP-Updates mit neuen Ereignissen und öffentlichen Ergebnissen für alle Frontier-Modelle an.

Häufig gestellte Fragen

Was ist der CUSP-Benchmark?

CUSP (Curated Scientific Predictions) ist ein Benchmark mit 4.700 wissenschaftlichen Ereignissen aus Biomedizin, Physik, Klimatologie und KI-Forschung. Jedes Ereignis wird als binäre Frage mit bekanntem Ergebnis formuliert — das Modell erhält Pre-Cutoff-Kontext und schätzt die Wahrscheinlichkeit.

Was bedeutet übermäßige Sicherheit (Overconfidence)?

Ein Modell ist überconfident, wenn es Vorhersagen mit hoher Wahrscheinlichkeit (z. B. 90 %) bewertet, die tatsächliche Erfolgsquote aber niedriger ist (z. B. 60 %). Frontier-Modelle auf CUSP zeigen systematische Overconfidence im Bereich 70–95 % Konfidenz.

Warum hilft zusätzlicher Kontext nicht?

Die Autoren testeten zusätzliche Pre-Cutoff-Paper, Nachrichtenartikel und Daten — die Leistung verbesserte sich nicht wesentlich. Fazit: Die Einschränkung ist kein Informationsmangel, sondern eine strukturelle Unfähigkeit, zwischen 'wissenschaftlich plausibel' und 'wird tatsächlich eintreten' zu unterscheiden.

arXiv:2605.22681: CUSP-Benchmark zeigt, dass Frontier-Modelle wissenschaftliche Durchbrüche nicht zuverlässig vorhersagen können

Wie formuliert CUSP die Fragen?

Welche Ergebnisse erzielen Frontier-Modelle?

Was bedeutet „strukturelle Einschränkung”?

Was bedeutet das für den KI-Einsatz in der Wissenschaft?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten