AI2: KI-Agenten loesen 80 % der Schulwissenschaft, aber nur 20 % echter wissenschaftlicher Probleme

Das Allen Institute for AI (AI2) hat eine Analyse veroeffentlicht, die eine der wichtigsten Luecken in den Faehigkeiten heutiger KI-Systeme aufdeckt — den Unterschied zwischen „Buchwissen” und der Faehigkeit zu echten wissenschaftlichen Entdeckungen.

Zwei Benchmarks, zwei Geschichten

ScienceWorld testet elementare wissenschaftliche Experimente in einer virtuellen Umgebung — Bestimmung von Siedepunkten, genetische Kreuzungen und Aehnliches. Interessanterweise fielen Modelle, die bei Multiple-Choice-Fragen zu denselben Themen hervorragende Ergebnisse erzielten, bei ScienceWorld zunaechst unter 10 %. Bis Anfang 2025 erreichten Spitzenmodelle etwa 80 % — solide, aber keine vollstaendige Beherrschung des Stoffs der vierten Klasse.

DiscoveryWorld ist deutlich anspruchsvoller — 120 Aufgaben in acht wissenschaftlichen Domaenen (Proteomik, Epidemiologie, Radioisotopen-Datierung usw.), die Hypothesenbildung, Versuchsplanung, Durchfuehrung und Analyse erfordern. Die Aufgaben sind in fiktive Kontexte eingebettet, um ein Stuetzen auf auswendig gelerntes Wissen zu verhindern.

Ein ernuechternder Vergleich

Bei den komplexeren DiscoveryWorld-Aufgaben schliessen KI-Agenten nur etwa 20 % der Aufgaben ab, waehrend menschliche Wissenschaftler mit hoeheren Abschluessen etwa 70 % loesen. Diese Kluft von 50 Prozentpunkten zeigt deutlich, wie weit der Weg von „Fakten kennen” zu „sie fuer Entdeckungen anwenden koennen” ist.

Was dies bedeutet

Diese Ergebnisse dienen als wichtiger Realitaetscheck inmitten der Begeisterung ueber KI in der Wissenschaft. Waehrend KI-Systeme hervorragend in der Datenverarbeitung und Mustererkennung sind, bleibt die Faehigkeit, neue Experimente zu entwerfen, sich anzupassen wenn die Dinge nicht nach Plan laufen, und kreativ zu denken, eine zutiefst menschliche Kompetenz.

AI2: KI-Agenten loesen 80 % der Schulwissenschaft, aber nur 20 % echter wissenschaftlicher Probleme

Zwei Benchmarks, zwei Geschichten

Ein ernuechternder Vergleich

Was dies bedeutet

Quellen

Verwandte Nachrichten