arXiv: CoDaPO — adaptive RL-Optimierung

Eine neue Arbeit identifiziert drei wiederkehrende Dynamiken im RL-Training von Reasoning-Modellen und schlaegt CoDaPO vor, eine Methode, die Fragen nach Konfidenz und Schwierigkeit gewichtet. Durch Priorisierung lernbarer Fragen erzielt sie konsistente Verbesserungen ueber 12 Benchmarks.

arXiv veroeffentlichte am 6. Juni 2026 eine Arbeit (Kennung arXiv:2606.07950, Version v1, 02:51 UTC), die CoDaPO vorstellt, eine confidence/difficulty-adaptive Methode zur Policy-Optimierung fuer das Training von Reasoning-Modellen. Die Arbeit geht von einer Analyse wiederkehrender Probleme im RL-Training (Reinforcement Learning) aus.

Welche Dynamiken treten im RL-Training auf?

Die Autoren identifizieren drei wiederkehrende Dynamiken im Reinforcement-Learning-Training. Die erste ist confidence inflation, bei der das Modell unabhaengig von der tatsaechlichen Genauigkeit immer sicherer in seinen Antworten wird.

Die zweite ist advantage contraction, bei der die Unterschiede im Nutzen einzelner Beispiele schrumpfen und das Lernen erschweren. Die dritte ist hierarchical convergence, ein Muster, in dem das Modell in Schichten konvergiert. Zusammen erklaeren diese drei Dynamiken, warum das Standard-RL-Training Compute ineffizient verbraucht.

Was ist CoDaPO und wie funktioniert es?

Als Antwort auf diese Probleme schlaegt die Arbeit CoDaPO vor. Die Methode weist Fragen Wichtigkeit auf Basis der Rollout-Konfidenz (Konfidenz waehrend der Antwortgenerierung) und der empirischen Schwierigkeit jeder Frage zu.

Auf Basis dieser Einschaetzung gewichtet CoDaPO anschliessend die Policy-Updates neu, also die Schritte zur Aktualisierung der Policy. Dadurch wird das Training auf jene Beispiele gelenkt, die am meisten zum Lernen beitragen, statt alle Beispiele gleich zu behandeln.

Warum stehen lernbare Fragen im Fokus?

Die zentrale Idee ist die Priorisierung “lernbarer” Fragen innerhalb eines festen Compute-Budgets. Das sind Fragen, die weder zu leicht noch unloesbar sind, sondern genau jene, aus denen das Modell am meisten lernen kann.

Indem CoDaPO Fragen, die das Modell bereits zuverlaessig loest, von solchen unterscheidet, die herausfordernd bleiben, vermeidet es das Verschwenden von Ressourcen auf Beispiele, die keinen Fortschritt bringen. Dasselbe Budget an Rechenressourcen wird so weitaus zweckmaessiger genutzt.

Wie viel Verbesserung bringt die Methode?

Laut der Arbeit erzielt CoDaPO konsistente Verbesserungen ueber 12 Benchmarks gegenueber bestehenden RL-Methoden. Es handelt sich um stetigen Fortschritt ueber eine breite Aufgabenmenge hinweg, nicht um ein isoliertes Ergebnis bei einem einzelnen Test.

Ziel der Methode ist eine effizientere Compute-Zuteilung, indem Fragen, die das Modell bereits loest, von solchen unterschieden werden, die schwer bleiben. Genau diese gezielte Ressourcenverteilung steht hinter den verzeichneten Verbesserungen.

Warum ist dieser Ansatz bedeutsam?

Die Arbeit ist interessant, weil sie das Problem des Trainings von Reasoning-Modellen als Frage der Aufmerksamkeitsverteilung auffasst und nicht einfach als groessere Ressourcenmenge. Statt Compute einfach zu erhoehen, lenkt CoDaPO es intelligenter.

Damit eroeffnet sich der Weg zu effizienterem Training von Modellen unter begrenzten Budgets. Fuer Forscher, die mit festen Ressourcen arbeiten, kann ein solcher adaptiver Ansatz ein besseres Ergebnis ohne Zusatzkosten bedeuten.

Häufig gestellte Fragen

Welche drei RL-Dynamiken identifiziert die Arbeit?

Die Arbeit identifiziert drei wiederkehrende Dynamiken im RL-Training: confidence inflation, advantage contraction und hierarchical convergence. Diese Dynamiken beschreiben wiederkehrende Muster, die waehrend des Trainings von Reasoning-Modellen auftreten.

Wie weist CoDaPO Fragen Wichtigkeit zu?

CoDaPO weist Fragen Wichtigkeit auf Basis der Rollout-Konfidenz (Konfidenz waehrend der Generierung) und der empirischen Schwierigkeit zu und gewichtet anschliessend die Policy-Updates neu. Ziel ist es, lernbare Fragen innerhalb eines festen Compute-Budgets zu priorisieren.

Wie viel Verbesserung bringt die Methode?

CoDaPO erzielt konsistente Verbesserungen ueber 12 Benchmarks gegenueber bestehenden RL-Methoden. Die Verbesserungen ergeben sich aus einer effizienteren Compute-Zuteilung, die Fragen, die das Modell bereits loest, von solchen unterscheidet, die herausfordernd bleiben.

arXiv:2606.07950: CoDaPO — confidence/difficulty-adaptive RL-Optimierung fuer Schlussfolgern

Welche Dynamiken treten im RL-Training auf?

Was ist CoDaPO und wie funktioniert es?

Warum stehen lernbare Fragen im Fokus?

Wie viel Verbesserung bringt die Methode?

Warum ist dieser Ansatz bedeutsam?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten