arXiv:2606.26502: Modelle geben bei Fehlern nicht auf

Studie arXiv:2606.26502 von Han-yu Wang zeigt, dass große Reasoning-Modelle (LRM) mehr Tokens für Aufgaben verbrauchen, bei denen sie scheitern, als für jene, die sie lösen – im Gegensatz zu Menschen, die bei schwierigen Aufgaben aufgeben. Der Abstand ist groß (Cohen's d 1,47–3,13 auf dem H-ARC-Benchmark), und alle fünf getesteten Modelle zeigten das inverse Muster gegenüber Menschen.

Warum geben Modelle nicht auf, wenn sie scheitern?

Die Studie mit dem Titel Humans Disengage, Reasoning Models Persist (arXiv:2606.26502, Han-yu Wang, eingereicht am 25. Juni 2026) zeigt, dass große Reasoning-Modelle (LRM, Large Reasoning Models – Modelle, die lange Reasoning-Ketten generieren) mehr Tokens für Aufgaben verbrauchen, bei denen sie am Ende scheitern, als für jene, die sie lösen. Menschen verhalten sich umgekehrt: Bei Aufgaben, bei denen sie scheitern, verbringen sie weniger Zeit, weil sie aufgeben.

Schwierigkeitserkennung versus Aufwandsverteilung

Der Autor unterscheidet zwei Mechanismen: Erkennung (wie die Antwortzeit mit der Schwierigkeit über verschiedene Aufgaben korreliert) und Verteilung (ob der Aufwand bei Fehlern oder bei Treffern steigt). Menschen und LRMs erkennen Schwierigkeit ähnlich über Aufgaben hinweg, divergieren aber innerhalb derselben Aufgabe. Der Abstand ist groß: Cohen’s d (Maß der Effektgröße) beträgt 1,47 bis 3,13 auf dem H-ARC-Benchmark, und alle fünf getesteten Modelle zeigten das inverse Muster gegenüber Menschen.

Was das für die Inferenzeffizienz bedeutet

Die Dissoziation hält über mehrere Datensätze und unter festen Aufgabeneffekten an, was ausschließt, dass es sich nur um Schwierigkeitsunterschiede handelt. Die Interpretation lautet: LRM verlängert die Reasoning-Kette, geleitet von Unsicherheit, genau dann, wenn die Fehlerwahrscheinlichkeit steigt. Die praktische Konsequenz ist, dass eine längere Antwort kein zuverlässiges Signal für Richtigkeit ist – sie kann ein Zeichen sein, dass das Modell an einem Problem feststeckt.

Häufig gestellte Fragen

Was ist der Hauptunterschied zwischen Menschen und Reasoning-Modellen?

Menschen geben auf und verbringen weniger Zeit mit Aufgaben, bei denen sie scheitern, während Reasoning-Modelle die Reasoning-Kette genau dann verlängern, wenn die Fehlerwahrscheinlichkeit steigt.

Was ist Cohen's d?

Cohen's d ist ein Maß der Effektgröße; Werte von 1,47–3,13 deuten auf einen sehr großen Abstand zwischen dem Token-Verbrauch bei richtigen und falschen Antworten hin.

arXiv:2606.26502: Reasoning-Modelle verbrauchen mehr Tokens bei Fehlern – im Gegensatz zu Menschen, die aufgeben

Warum geben Modelle nicht auf, wenn sie scheitern?

Schwierigkeitserkennung versus Aufwandsverteilung

Was das für die Inferenzeffizienz bedeutet

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten