Welches Problem untersucht die Arbeit?

Ob ein großes Sprachmodell, das gelernt hat, Kürzeste-Pfade-Probleme auf kleinen Graphen zu lösen, auf große Graphen mit längeren Pfaden und auf ungesehene Kartentopologien verallgemeinern kann.

Warum ist das für KI-Agenten wichtig?

Weil viele praktische Agentenaufgaben (mehrstufige Planung, Software-Engineering, Forschung) einen langen Horizont erfordern — wenn große Sprachmodelle nicht mit der Länge skalieren können, ist die Autonomie der Agenten grundlegend begrenzt.

Große Sprachmodelle erlernen den kürzesten Pfad in Graphen — scheitern jedoch, wenn der Aufgabenhorizont wächst

Was wurde getestet?

Ein Forschungsteam bestehend aus Tong, Ye, Borovykh und Shokri veröffentlichte auf arXiv eine Arbeit, die systematisch analysiert, ob ein großes Sprachmodell systematische Generalisierung beim klassischen algorithmischen Problem — der Suche nach dem kürzesten Pfad in einem Graphen — erreichen kann. Die Tests umfassten zwei unabhängige Generalisierungsdimensionen:

Räumlicher Transfer — kann ein Modell, das auf einer bestimmten Menge von Graphen trainiert wurde, Probleme auf ungesehenen Karten mit anderen Topologien lösen?
Horizontskalierung — kann ein Modell, das auf kürzeren Pfaden trainiert wurde (etwa 5–10 Schritte), längere Pfade (50+ Schritte) korrekt lösen?

Diese Methodik ist bewusst breiter als standardmäßige Benchmark-Typen — sie misst nicht nur, ob die Fragen neu sind, sondern ob die strukturellen Anforderungen anspruchsvoller sind als das, was das Modell im Training gesehen hat.

Was wurde gefunden?

Die Ergebnisse sind konsistent und beachtenswert:

Räumlicher Transfer: erfolgreich. Modelle, die das Finden von Pfaden in einer Menge von Graphen erlernen, generalisieren erfolgreich auf ungesehene Topologien gleicher Größe. Das bedeutet, dass „einen Algorithmus erlernen” in gewissem Maße möglich ist.
Längenskalierung: konsistentes Scheitern. Wenn die Pfadlänge den Trainingsbereich überschreitet, scheitern die Modelle aufgrund von rekursiver Instabilität — kleine Fehler in einem Schritt akkumulieren sich bis zum Ende exponentiell.

Zusätzlich wurden drei Interventionen getestet:

Datenabdeckung definiert die Fähigkeitsgrenze — ein Modell kennt, was es im Training gesehen hat; Skalierung darüber hinaus funktioniert nicht.
RL (Reinforcement Learning) verbessert die Stabilität im Trainingsbereich, erweitert aber nicht die Grenzen der Generalisierung.
Inferenz-Zeit-Skalierung (größeres Token-Budget, Chain-of-Thought) hilft, löst aber das grundlegende Längenskalierungsproblem nicht.

Warum ist das für autonome Agenten wichtig?

Viele praktische Agentenaufgaben erfordern einen langen Horizont: mehrstufige Planung, Forschung, Software-Engineering-Projekte, die tagelang dauern, iteratives Debuggen komplexer Systeme. Wenn große Sprachmodelle strukturell nicht mit der Länge skalieren können — was diese Arbeit nahelegt — dann ist die Autonomie der Agenten grundlegend durch die Größe der im Training gesehenen Probleme begrenzt.

Dies deckt sich mit früheren Erkenntnissen (z. B. dem LongCoT-Benchmark, bei dem GPT 9,8 % beim langen Chain-of-Thought-Schlussfolgern erzielt): Selbst scheinbar die stärksten Modelle brechen zusammen, wenn das Problem länger wird.

Was bedeutet das in der Praxis?

Die Forschenden behaupten nicht, dass das Problem unlösbar ist, identifizieren aber drei unvermeidliche Wahrheiten:

Synthetische Datensatzabdeckung muss explizit lange Pfade einschließen — sonst wird das Modell nie lernen, wie es mit ihnen umgeht.
RL und Inferenz-Zeit-Skalierung sind keine Zauberstäbe — sie verbessern, was das Modell bereits gelernt hat, fügen aber keine neue systematische Fähigkeit hinzu.
Architekturänderungen (hierarchische Agenten, Planung mit explizitem Zustandsmanagement) könnten für echte Längengeneralisierung notwendig sein.

Für KI-News-Leserinnen und -Leser lautet die Schlussfolgerung: Wenn Sie das nächste Mal lesen, dass ein Modell „autonome Forschungsprojekte” durchführt, fragen Sie sich, wie tief dieser Horizont tatsächlich ist und ob das Problem innerhalb oder außerhalb des Trainingsbereichs dieses Modells liegt.

Große Sprachmodelle erlernen den kürzesten Pfad in Graphen — scheitern jedoch, wenn der Aufgabenhorizont wächst

Was wurde getestet?

Was wurde gefunden?

Warum ist das für autonome Agenten wichtig?

Was bedeutet das in der Praxis?

Quellen

Verwandte Nachrichten