arXiv:2606.26935: CoT-Trainingsgewinne fließen in stärkere Aktionsvorhersage, nicht in tieferes Agenten-Reasoning
Studie arXiv:2606.26935 von Jingyu Liu et al. zeigt, dass Trainingsgewinne durch Gedankenketten-Training (CoT) bei LLM-Agenten in stärkere direkte Aktionsvorhersage fließen, nicht in einen breiteren Reasoning-Vorteil. Spätere Checkpoints revidieren die Aktion seltener, und Maskierung der Aufsicht über Action-Tokens verbessert die Out-of-Domain-Generalisierung.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Wo landen CoT-Trainingsgewinne wirklich?
Die Studie mit dem Titel Where Do CoT Training Gains Land in LLM based Agents? (arXiv:2606.26935, Jingyu Liu et al., eingereicht am 25. Juni 2026) behauptet, dass Trainingsgewinne durch Gedankenketten in die direkte Aktionsvorhersage fließen, nicht in tieferes Reasoning. CoT (Chain-of-Thought, Gedankenkette) ist eine Technik, bei der das Modell Denkschritte vor der endgültigen Entscheidung generiert. Die Autoren vergleichen direkte Aktionen (ohne CoT) mit CoT-Aktionen über Trainings-Checkpoints hinweg.
Methode des Checkpoint-Vergleichs
Die Qualität direkter Aktionen stieg während des Trainings erheblich, während der relative Vorteil von CoT gegenüber direkter Vorhersage stabil blieb. Mit anderen Worten: CoT-Training hat den Vorteil der Gedankenkette nicht ausgebaut – es hat die Fähigkeit des Modells erhöht, die richtige Aktion direkt zu erraten. In späteren Checkpoints wurden Modelle weniger geneigt, die Aktion als Reaktion auf CoT zu revidieren, was auf zunehmende Abhängigkeit von der anfänglichen Einschätzung hindeutet.
Intervention durch Maskierung
Die Autoren testen eine Intervention: Maskierung der Aufsicht über Action-Tokens bei einem Teil der Trainingsbeispiele. Diese Änderung verbesserte die Out-of-Domain-Generalisierung. Der Befund stellt die weit verbreitete Annahme in Frage, dass CoT-Training Modelle lehrt, Probleme besser zu durchdenken – stattdessen errät das Modell den Ausgang lediglich zuverlässiger.
Häufig gestellte Fragen
- Was ist CoT (Chain-of-Thought, Gedankenkette)?
- CoT (Chain-of-Thought, Gedankenkette) ist eine Technik, bei der das Modell Denkschritte vor der endgültigen Aktion oder Antwort generiert.
- Was deckt die Studie über CoT-Training auf?
- Dass Trainingsgewinne in erster Linie die direkte Aktionsvorhersage stärken, während der Vorteil von CoT gegenüber direkter Vorhersage während des Trainings nicht zunimmt.
Verwandte Nachrichten
arXiv:2606.26502: Reasoning-Modelle verbrauchen mehr Tokens bei Fehlern – im Gegensatz zu Menschen, die aufgeben
GitHub: MAI-Code-1-Flash, Microsofts Coding-Modell, jetzt allgemein verfügbar in Copilot Business und Enterprise
Anthropic: API-Rate-Limits angehoben — Sonnet und Haiku jetzt auf Opus-Niveau, drei Stufen