Die Schlussfolgerungsstruktur großer Sprachmodelle

Forscher der ETH Zürich haben einen Benchmark aus Logikrätseln und eine Pipeline vorgestellt, die Reasoning-Traces in messbare Graphen aus Aussagen und Abhängigkeiten umwandelt. Eine neue Metrik quantifiziert die Schlussfolgerungseffizienz und deckt Unterschiede auf, die Genauigkeit und Tokenzahl nicht unterscheiden können.

Reasoning-Modelle werden heute meist anhand zweier Zahlen bewertet: ob sie die richtige Antwort gegeben haben und wie viele Tokens sie verbraucht haben. Ein Team der ETH Zürich — Frédéric Berdoz, Luca A. Lanzendörfer, Fabian Farestam und Roger Wattenhofer — argumentiert, dass diese beiden Zahlen vieles verbergen, und bietet ein Werkzeug, das in die Struktur des Schlussfolgerns selbst blickt.

Wie wird die Schlussfolgerungsstruktur gemessen?

Die Autoren bauen einen skalierbaren Benchmark aus Logikrätseln und eine Pipeline, die einen unstrukturierten Reasoning-Trace — die Abfolge der Denkschritte eines Modells — in einen überprüfbaren Graphen umwandelt. In diesem Graphen sind die Knoten einzelne Aussagen und die Kanten logische Abhängigkeiten zwischen ihnen. So wird sichtbar, ob das Modell ein ordentliches, zusammenhängendes Argument aufbaut oder in Sackgassen abschweift, die zu keiner Lösung führen.

Was deckt die neue Metrik auf?

Neben dem Graphen führen die Autoren eine Metrik ein, die die Schlussfolgerungseffizienz quantifiziert — wie konzentriert der logische Fluss des Modells ist. Der zentrale Befund ihrer Analyse über quelloffene Systeme lautet, dass strukturelle Messungen Verhaltensweisen trennen, die Genauigkeit und Tokenzahl zu einer verschmelzen. Zwei Modelle können dieselbe Genauigkeit und eine ähnliche Antwortlänge haben, aber völlig unterschiedliche Denkstrukturen.

Warum ist das wichtig?

Der praktische Wert liegt in der Diagnostik. Die strukturelle Sicht ermöglicht es, die Arten zu erkennen, auf die ein Modell Fehler macht, und zu vergleichen, wie sich das Schlussfolgern mit der Schwierigkeit des Rätsels verändert. Die Arbeit wurde auf der ICML 2026 angenommen und auch auf einem Workshop der ICLR 2026 zum Schlussfolgern in großen Modellen vorgestellt, was auf ein wachsendes Interesse der Community daran hindeutet, zu messen, wie Modelle denken, nicht nur, was sie antworten.

Häufig gestellte Fragen

Was ist der Reasoning-Graph in dieser Arbeit?

Ein Graph, in dem die Knoten die Aussagen des Modells und die Kanten logische Abhängigkeiten zwischen ihnen sind, gewonnen durch die Umwandlung eines unstrukturierten Reasoning-Trace.

Warum reichen Genauigkeit und Tokenzahl nicht?

Strukturelle Messungen trennen Verhaltensweisen, die Genauigkeit und Tokenzahl zusammenführen, und zeigen, wie das Modell ein Argument aufbaut, nicht nur, ob es zu einer Lösung gelangt.

arXiv:2606.03883: Wie sieht die Schlussfolgerungsstruktur großer Sprachmodelle wirklich aus?

Wie wird die Schlussfolgerungsstruktur gemessen?

Was deckt die neue Metrik auf?

Warum ist das wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten