🤖 24 AI
🟢 🤖 Modelle Sonntag, 19. April 2026 · 3 Min. Lesezeit

Große Sprachmodelle erlernen den kürzesten Pfad in Graphen — scheitern jedoch, wenn der Aufgabenhorizont wächst

Redaktionelle Illustration: Graph mit Knoten und Pfaden, ein langer Horizont, der in der Ferne verblasst

Warum es wichtig ist

Ein neues arXiv-Paper untersucht systematisch die Generalisierung großer Sprachmodelle beim Kürzeste-Pfade-Problem in zwei Dimensionen: Räumlicher Transfer auf ungesehene Karten funktioniert gut, aber Skalierung mit der Horizontlänge scheitert konsistent aufgrund rekursiver Instabilität. Die Ergebnisse haben direkte Implikationen für autonome Agenten — Trainings­datenabdeckung definiert die Fähigkeitsgrenze, RL verbessert die Stabilität aber erweitert diese Grenze nicht, und Inferenz-Zeit-Skalierung hilft, löst aber das Längenskalierungsproblem nicht.

Was wurde getestet?

Ein Forschungsteam bestehend aus Tong, Ye, Borovykh und Shokri veröffentlichte auf arXiv eine Arbeit, die systematisch analysiert, ob ein großes Sprachmodell systematische Generalisierung beim klassischen algorithmischen Problem — der Suche nach dem kürzesten Pfad in einem Graphen — erreichen kann. Die Tests umfassten zwei unabhängige Generalisierungsdimensionen:

  1. Räumlicher Transfer — kann ein Modell, das auf einer bestimmten Menge von Graphen trainiert wurde, Probleme auf ungesehenen Karten mit anderen Topologien lösen?
  2. Horizontskalierung — kann ein Modell, das auf kürzeren Pfaden trainiert wurde (etwa 5–10 Schritte), längere Pfade (50+ Schritte) korrekt lösen?

Diese Methodik ist bewusst breiter als standardmäßige Benchmark-Typen — sie misst nicht nur, ob die Fragen neu sind, sondern ob die strukturellen Anforderungen anspruchsvoller sind als das, was das Modell im Training gesehen hat.

Was wurde gefunden?

Die Ergebnisse sind konsistent und beachtenswert:

  • Räumlicher Transfer: erfolgreich. Modelle, die das Finden von Pfaden in einer Menge von Graphen erlernen, generalisieren erfolgreich auf ungesehene Topologien gleicher Größe. Das bedeutet, dass „einen Algorithmus erlernen” in gewissem Maße möglich ist.

  • Längenskalierung: konsistentes Scheitern. Wenn die Pfadlänge den Trainingsbereich überschreitet, scheitern die Modelle aufgrund von rekursiver Instabilität — kleine Fehler in einem Schritt akkumulieren sich bis zum Ende exponentiell.

Zusätzlich wurden drei Interventionen getestet:

  • Datenabdeckung definiert die Fähigkeitsgrenze — ein Modell kennt, was es im Training gesehen hat; Skalierung darüber hinaus funktioniert nicht.
  • RL (Reinforcement Learning) verbessert die Stabilität im Trainingsbereich, erweitert aber nicht die Grenzen der Generalisierung.
  • Inferenz-Zeit-Skalierung (größeres Token-Budget, Chain-of-Thought) hilft, löst aber das grundlegende Längenskalierungsproblem nicht.

Warum ist das für autonome Agenten wichtig?

Viele praktische Agentenaufgaben erfordern einen langen Horizont: mehrstufige Planung, Forschung, Software-Engineering-Projekte, die tagelang dauern, iteratives Debuggen komplexer Systeme. Wenn große Sprachmodelle strukturell nicht mit der Länge skalieren können — was diese Arbeit nahelegt — dann ist die Autonomie der Agenten grundlegend durch die Größe der im Training gesehenen Probleme begrenzt.

Dies deckt sich mit früheren Erkenntnissen (z. B. dem LongCoT-Benchmark, bei dem GPT 9,8 % beim langen Chain-of-Thought-Schlussfolgern erzielt): Selbst scheinbar die stärksten Modelle brechen zusammen, wenn das Problem länger wird.

Was bedeutet das in der Praxis?

Die Forschenden behaupten nicht, dass das Problem unlösbar ist, identifizieren aber drei unvermeidliche Wahrheiten:

  1. Synthetische Datensatzabdeckung muss explizit lange Pfade einschließen — sonst wird das Modell nie lernen, wie es mit ihnen umgeht.
  2. RL und Inferenz-Zeit-Skalierung sind keine Zauberstäbe — sie verbessern, was das Modell bereits gelernt hat, fügen aber keine neue systematische Fähigkeit hinzu.
  3. Architekturänderungen (hierarchische Agenten, Planung mit explizitem Zustandsmanagement) könnten für echte Längengeneralisierung notwendig sein.

Für KI-News-Leserinnen und -Leser lautet die Schlussfolgerung: Wenn Sie das nächste Mal lesen, dass ein Modell „autonome Forschungsprojekte” durchführt, fragen Sie sich, wie tief dieser Horizont tatsächlich ist und ob das Problem innerhalb oder außerhalb des Trainingsbereichs dieses Modells liegt.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.