AstaBench 2026: Opus 4.7 führt mit 58 %, GPT-5.5 halb so teuer

Das Allen Institute veröffentlichte das aktualisierte AstaBench-Leaderboard mit 2.400 Problemen für KI-Agenten in der Wissenschaft. Claude Opus 4.7 führt mit 58,0 %, während GPT-5.5 mit 52,9 % bei halbem Kostenaufwand pro Problem abschneidet. Kernbefund: Gute Ergebnisse bei einzelnen Aufgaben bedeuten nicht automatisch robuste Ende-zu-Ende-wissenschaftliche Arbeit.

Das Allen Institute for AI (AI2) veröffentlichte am 30. April 2026 das aktualisierte AstaBench-Leaderboard — bisher die umfassendste öffentliche Übersicht über die Fähigkeiten von KI-Agenten im Kontext wissenschaftlicher Forschung.

Wie bewertet AstaBench KI-Modelle für die Wissenschaft?

AstaBench bewertet KI-Agenten durch die Lösung von mehr als 2.400 Problemen, die echte Herausforderungen aus der Forschungspraxis simulieren — von Datenanalyse und Programmierung bis zur Literatursynthese und Hypothesenbildung. Der Benchmark ist darauf ausgelegt, über typische Genauigkeitstabellen bei isolierten Aufgaben hinauszugehen.

Das Frühjahr-2026-Update bringt einen erweiterten Modellsatz und betont die wirtschaftliche Dimension: Neben der Genauigkeit werden auch die Kosten pro gelöstem Problem veröffentlicht.

Welche Modelle führen und zu welchem Preis?

Claude Opus 4.7 (Anthropic) belegt den ersten Platz mit einem Ergebnis von 58,0 %, was es zum führenden Modell für die Ende-zu-Ende-Lösung wissenschaftlicher agentischer Aufgaben nach AstaBench-Methodik macht.

GPT-5.5 (OpenAI) erreicht 52,9 % — 5,1 Prozentpunkte weniger — jedoch zu einem Preis von 1,61 USD pro Problem gegenüber 3,54 USD für Opus 4.7. Für Forschungsteams, die Experimente skalieren möchten, kann dieser Kostenunterschied von 54 % ein entscheidender Faktor sein.

Kernbefund: Warum garantieren hohe Aufgabenbewertungen keinen Erfolg?

Das Allen Institute betont ausdrücklich, dass eine gute Leistung bei einzelnen Aufgaben — etwa der Codegenerierung oder Datenanalyse — sich nicht automatisch in robuste Ende-zu-Ende-wissenschaftliche Arbeit übersetzt.

Komplexe agentische Szenarien erfordern die Koordination mehrerer Schritte, langfristige Planung und konsistente Kontextverfolgung. Modelle, die bei isolierten Teilaufgaben hervorragen, können Schwierigkeiten haben, wenn sie diese Fähigkeiten in einen kohärenten Forschungsablauf integrieren müssen.

Breiterer Kontext und industrielle Anwendung

Das AstaBench-Update enthält Hinweise auf Industriepartnerschaften, was auf wachsendes kommerzielles Interesse an strukturierter KI-Bewertung in Forschungsprozessen hindeutet.

Die Ergebnisse stellen praktische Fragen für Forschungseinrichtungen: Ist die höhere Genauigkeit des führenden Modells den doppelten Kostenaufwand pro Problem wert? Die Antwort hängt von Art und Umfang der Aufgaben ab, die das Team bearbeitet.

Häufig gestellte Fragen

Was misst AstaBench?

AstaBench (Allen Institute for AI) misst die Fähigkeit von KI-Agenten, Probleme zu lösen, die typisch für echte wissenschaftliche Forschung sind — mehr als 2.400 Aufgaben aus verschiedenen wissenschaftlichen Bereichen.

Warum könnte GPT-5.5 trotz niedrigerer Genauigkeit die bessere Wahl als Opus 4.7 sein?

GPT-5.5 kostet 1,61 USD pro Problem, Opus 4.7 kostet 3,54 USD — ein Kostenunterschied von 54 % bei nur 5,1 Prozentpunkten Unterschied in der Genauigkeit macht GPT-5.5 zur kosteneffizienten Wahl für größere Experimente.

AstaBench Frühjahr 2026: Claude Opus 4.7 führt mit 58 % im wissenschaftlichen KI-Benchmark, GPT-5.5 halb so teuer

Wie bewertet AstaBench KI-Modelle für die Wissenschaft?

Welche Modelle führen und zu welchem Preis?

Kernbefund: Warum garantieren hohe Aufgabenbewertungen keinen Erfolg?

Breiterer Kontext und industrielle Anwendung

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten