Was ist das LongCoT-Benchmark?

Ein Benchmark mit 2.500 von Experten entworfenen Problemen aus Chemie, Mathematik, Informatik, Schach und Logik, das Chain-of-Thought-Reasoning testet, das Zehntausende bis Hunderttausende von Tokens erfordert.

Warum schneiden Frontier-Modelle beim LongCoT so schlecht ab?

Einzelne Lösungsschritte sind für sie lösbar, aber kohärentes Reasoning durch eine gesamte Sequenz von Tausenden von Schritten aufrechtzuerhalten, bleibt eine kritische Schwäche — GPT 5.2 erreicht nur 9,8 Prozent.

ArXiv: LongCoT-Benchmark zeigt, dass GPT 5.2 beim langen Chain-of-Thought-Reasoning nur 9,8 % erreicht

Ein internationales Forscherteam aus Oxford, dem Lawrence Livermore National Laboratory und dem AI Safety Institute veröffentlichte LongCoT — ein neues Benchmark, das die Fähigkeit von KI-Modellen für langes Chain-of-Thought (CoT) Reasoning testet. Die Ergebnisse offenbaren eine beunruhigende Schwäche selbst bei den fortschrittlichsten Modellen.

Was misst LongCoT?

Das Benchmark enthält 2.500 von Experten entworfene Probleme aus fünf Domänen: Chemie, Mathematik, Informatik, Schach und Logik. Der entscheidende Unterschied zu bestehenden Benchmarks besteht darin, dass die Probleme einen Chain-of-Thought erfordern, der sich über Zehntausende bis Hunderttausende von Tokens erstreckt — weit über typische kurze Reasoning-Aufgaben hinaus.

Die Probleme sind so konzipiert, dass einzelne Schritte für Frontier-Modelle lösbar sind, aber die gesamte Sequenz erweitertes Reasoning erfordert — die Fähigkeit, kohärentes Denken durch eine lange Abfolge von Schritten aufrechtzuerhalten, ohne den Kontext zu verlieren oder Fehler zu akkumulieren.

Wie beunruhigend sind die Ergebnisse?

Aktuelle Frontier-Modelle versagen dramatisch: GPT 5.2 erreicht nur 9,8 %, während Gemini 3 Pro auf noch niedrigere 6,1 % fällt. Das bedeutet, dass selbst die fähigsten KI-Modelle nicht mehr als eines von zehn Problemen lösen können, die langes, kohärentes Reasoning erfordern.

Dieser Befund ist besonders bedeutsam im Kontext des wachsenden Einsatzes von KI-Agenten für autonome Aufgaben. Agenten, die mehrstufige Operationen planen und ausführen müssen — von Debugging-Sitzungen bis hin zu Forschungsprozessen — sind genau auf die Fähigkeit zu langem kohärentem Reasoning angewiesen.

Warum ist das für die KI-Sicherheit wichtig?

Die Autoren identifizieren die LongCoT-Schwäche explizit als kritisch für den autonomen Einsatz von KI-Agenten. Wenn ein Modell nicht zuverlässig durch eine lange Abfolge von Schritten schlußfolgern kann, können autonome Agenten in späteren Phasen komplexer Aufgaben falsche Entscheidungen treffen — genau dort, wo die Konsequenzen am schwersten wiegen.

Das Benchmark deutet auch darauf hin, dass der aktuelle Ansatz der Modell-Skalierung das Problem des langen Reasonings nicht automatisch löst. Grundlegend neue architektonische Innovationen oder Trainingsmethoden sind erforderlich, damit Modelle die Lücke zwischen kurzem und langem Chain-of-Thought-Reasoning schließen.

ArXiv: LongCoT-Benchmark zeigt, dass GPT 5.2 beim langen Chain-of-Thought-Reasoning nur 9,8 % erreicht

Was misst LongCoT?

Wie beunruhigend sind die Ergebnisse?

Warum ist das für die KI-Sicherheit wichtig?

Quellen

Verwandte Nachrichten