arXiv:2606.26935: CoT-Training stärkt Aktionsvorhersage

Studie arXiv:2606.26935 von Jingyu Liu et al. zeigt, dass Trainingsgewinne durch Gedankenketten-Training (CoT) bei LLM-Agenten in stärkere direkte Aktionsvorhersage fließen, nicht in einen breiteren Reasoning-Vorteil. Spätere Checkpoints revidieren die Aktion seltener, und Maskierung der Aufsicht über Action-Tokens verbessert die Out-of-Domain-Generalisierung.

Wo landen CoT-Trainingsgewinne wirklich?

Die Studie mit dem Titel Where Do CoT Training Gains Land in LLM based Agents? (arXiv:2606.26935, Jingyu Liu et al., eingereicht am 25. Juni 2026) behauptet, dass Trainingsgewinne durch Gedankenketten in die direkte Aktionsvorhersage fließen, nicht in tieferes Reasoning. CoT (Chain-of-Thought, Gedankenkette) ist eine Technik, bei der das Modell Denkschritte vor der endgültigen Entscheidung generiert. Die Autoren vergleichen direkte Aktionen (ohne CoT) mit CoT-Aktionen über Trainings-Checkpoints hinweg.

Methode des Checkpoint-Vergleichs

Die Qualität direkter Aktionen stieg während des Trainings erheblich, während der relative Vorteil von CoT gegenüber direkter Vorhersage stabil blieb. Mit anderen Worten: CoT-Training hat den Vorteil der Gedankenkette nicht ausgebaut – es hat die Fähigkeit des Modells erhöht, die richtige Aktion direkt zu erraten. In späteren Checkpoints wurden Modelle weniger geneigt, die Aktion als Reaktion auf CoT zu revidieren, was auf zunehmende Abhängigkeit von der anfänglichen Einschätzung hindeutet.

Intervention durch Maskierung

Die Autoren testen eine Intervention: Maskierung der Aufsicht über Action-Tokens bei einem Teil der Trainingsbeispiele. Diese Änderung verbesserte die Out-of-Domain-Generalisierung. Der Befund stellt die weit verbreitete Annahme in Frage, dass CoT-Training Modelle lehrt, Probleme besser zu durchdenken – stattdessen errät das Modell den Ausgang lediglich zuverlässiger.

Häufig gestellte Fragen

Was ist CoT (Chain-of-Thought, Gedankenkette)?

CoT (Chain-of-Thought, Gedankenkette) ist eine Technik, bei der das Modell Denkschritte vor der endgültigen Aktion oder Antwort generiert.

Was deckt die Studie über CoT-Training auf?

Dass Trainingsgewinne in erster Linie die direkte Aktionsvorhersage stärken, während der Vorteil von CoT gegenüber direkter Vorhersage während des Trainings nicht zunimmt.

arXiv:2606.26935: CoT-Trainingsgewinne fließen in stärkere Aktionsvorhersage, nicht in tieferes Agenten-Reasoning

Wo landen CoT-Trainingsgewinne wirklich?

Methode des Checkpoint-Vergleichs

Intervention durch Maskierung

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten