🤖 24 AI
🟡 🤖 Modelle Freitag, 17. April 2026 · 2 Min. Lesezeit

ArXiv: LongCoT-Benchmark zeigt, dass GPT 5.2 beim langen Chain-of-Thought-Reasoning nur 9,8 % erreicht

Warum es wichtig ist

LongCoT ist ein neues Benchmark mit 2.500 von Experten entworfenen Problemen aus fünf Domänen, das die Fähigkeit zu langem Chain-of-Thought-Reasoning testet, das Zehntausende bis Hunderttausende von Tokens erfordern kann. Aktuelle Frontier-Modelle versagen dramatisch, wobei GPT 5.2 nur 9,8 Prozent und Gemini 3 Pro nur 6,1 Prozent erreicht, was eine kritische Schwäche für den autonomen Einsatz von KI-Agenten identifiziert.

Ein internationales Forscherteam aus Oxford, dem Lawrence Livermore National Laboratory und dem AI Safety Institute veröffentlichte LongCoT — ein neues Benchmark, das die Fähigkeit von KI-Modellen für langes Chain-of-Thought (CoT) Reasoning testet. Die Ergebnisse offenbaren eine beunruhigende Schwäche selbst bei den fortschrittlichsten Modellen.

Was misst LongCoT?

Das Benchmark enthält 2.500 von Experten entworfene Probleme aus fünf Domänen: Chemie, Mathematik, Informatik, Schach und Logik. Der entscheidende Unterschied zu bestehenden Benchmarks besteht darin, dass die Probleme einen Chain-of-Thought erfordern, der sich über Zehntausende bis Hunderttausende von Tokens erstreckt — weit über typische kurze Reasoning-Aufgaben hinaus.

Die Probleme sind so konzipiert, dass einzelne Schritte für Frontier-Modelle lösbar sind, aber die gesamte Sequenz erweitertes Reasoning erfordert — die Fähigkeit, kohärentes Denken durch eine lange Abfolge von Schritten aufrechtzuerhalten, ohne den Kontext zu verlieren oder Fehler zu akkumulieren.

Wie beunruhigend sind die Ergebnisse?

Aktuelle Frontier-Modelle versagen dramatisch: GPT 5.2 erreicht nur 9,8 %, während Gemini 3 Pro auf noch niedrigere 6,1 % fällt. Das bedeutet, dass selbst die fähigsten KI-Modelle nicht mehr als eines von zehn Problemen lösen können, die langes, kohärentes Reasoning erfordern.

Dieser Befund ist besonders bedeutsam im Kontext des wachsenden Einsatzes von KI-Agenten für autonome Aufgaben. Agenten, die mehrstufige Operationen planen und ausführen müssen — von Debugging-Sitzungen bis hin zu Forschungsprozessen — sind genau auf die Fähigkeit zu langem kohärentem Reasoning angewiesen.

Warum ist das für die KI-Sicherheit wichtig?

Die Autoren identifizieren die LongCoT-Schwäche explizit als kritisch für den autonomen Einsatz von KI-Agenten. Wenn ein Modell nicht zuverlässig durch eine lange Abfolge von Schritten schlußfolgern kann, können autonome Agenten in späteren Phasen komplexer Aufgaben falsche Entscheidungen treffen — genau dort, wo die Konsequenzen am schwersten wiegen.

Das Benchmark deutet auch darauf hin, dass der aktuelle Ansatz der Modell-Skalierung das Problem des langen Reasonings nicht automatisch löst. Grundlegend neue architektonische Innovationen oder Trainingsmethoden sind erforderlich, damit Modelle die Lücke zwischen kurzem und langem Chain-of-Thought-Reasoning schließen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.