ArXiv: LongCoT-Benchmark zeigt, dass GPT 5.2 beim langen Chain-of-Thought-Reasoning nur 9,8 % erreicht
Warum es wichtig ist
LongCoT ist ein neues Benchmark mit 2.500 von Experten entworfenen Problemen aus fünf Domänen, das die Fähigkeit zu langem Chain-of-Thought-Reasoning testet, das Zehntausende bis Hunderttausende von Tokens erfordern kann. Aktuelle Frontier-Modelle versagen dramatisch, wobei GPT 5.2 nur 9,8 Prozent und Gemini 3 Pro nur 6,1 Prozent erreicht, was eine kritische Schwäche für den autonomen Einsatz von KI-Agenten identifiziert.
Ein internationales Forscherteam aus Oxford, dem Lawrence Livermore National Laboratory und dem AI Safety Institute veröffentlichte LongCoT — ein neues Benchmark, das die Fähigkeit von KI-Modellen für langes Chain-of-Thought (CoT) Reasoning testet. Die Ergebnisse offenbaren eine beunruhigende Schwäche selbst bei den fortschrittlichsten Modellen.
Was misst LongCoT?
Das Benchmark enthält 2.500 von Experten entworfene Probleme aus fünf Domänen: Chemie, Mathematik, Informatik, Schach und Logik. Der entscheidende Unterschied zu bestehenden Benchmarks besteht darin, dass die Probleme einen Chain-of-Thought erfordern, der sich über Zehntausende bis Hunderttausende von Tokens erstreckt — weit über typische kurze Reasoning-Aufgaben hinaus.
Die Probleme sind so konzipiert, dass einzelne Schritte für Frontier-Modelle lösbar sind, aber die gesamte Sequenz erweitertes Reasoning erfordert — die Fähigkeit, kohärentes Denken durch eine lange Abfolge von Schritten aufrechtzuerhalten, ohne den Kontext zu verlieren oder Fehler zu akkumulieren.
Wie beunruhigend sind die Ergebnisse?
Aktuelle Frontier-Modelle versagen dramatisch: GPT 5.2 erreicht nur 9,8 %, während Gemini 3 Pro auf noch niedrigere 6,1 % fällt. Das bedeutet, dass selbst die fähigsten KI-Modelle nicht mehr als eines von zehn Problemen lösen können, die langes, kohärentes Reasoning erfordern.
Dieser Befund ist besonders bedeutsam im Kontext des wachsenden Einsatzes von KI-Agenten für autonome Aufgaben. Agenten, die mehrstufige Operationen planen und ausführen müssen — von Debugging-Sitzungen bis hin zu Forschungsprozessen — sind genau auf die Fähigkeit zu langem kohärentem Reasoning angewiesen.
Warum ist das für die KI-Sicherheit wichtig?
Die Autoren identifizieren die LongCoT-Schwäche explizit als kritisch für den autonomen Einsatz von KI-Agenten. Wenn ein Modell nicht zuverlässig durch eine lange Abfolge von Schritten schlußfolgern kann, können autonome Agenten in späteren Phasen komplexer Aufgaben falsche Entscheidungen treffen — genau dort, wo die Konsequenzen am schwersten wiegen.
Das Benchmark deutet auch darauf hin, dass der aktuelle Ansatz der Modell-Skalierung das Problem des langen Reasonings nicht automatisch löst. Grundlegend neue architektonische Innovationen oder Trainingsmethoden sind erforderlich, damit Modelle die Lücke zwischen kurzem und langem Chain-of-Thought-Reasoning schließen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Thinking with Reasoning Skills (ACL 2026 Industry Track): weniger Token, höhere Genauigkeit durch Abruf von Reasoning-Skills
DeepSeek veröffentlicht V4-Pro und V4-Flash: zwei Open-Source-Modelle mit einer Million Token Kontext und 80,6 auf SWE Verified
OpenAI stellt GPT-5.5 vor: das intelligenteste Modell für Coding, Forschung und komplexe Datenanalyse durch Werkzeuge