Tandem RL: besserer Handoff und Lesbarkeit mit RLVR

Tandem RL ist eine neue Methode zum Training von Sprachmodellen, die RLVR (Reinforcement Learning mit verifizierbaren Belohnungen) mit einem Tandem-Ansatz kombiniert: Ein stärkeres Modell arbeitet mit einem eingefrorenen schwächeren Modell bei der Generierung der Gedankenkette zusammen. Auf Qwen3-4B erzielt es vergleichbare Leistungen bei deutlich besserer Lesbarkeit und Robustheit beim Handoff auf kleinere Modelle.

Forscher der EPFL veröffentlichten ein Preprint auf arXiv, das ein praktisches Problem moderner Trainingstechniken für Sprachmodelle im mathematischen Schlussfolgern löst.

RLVR und das Lesbarkeits-Problem

RLVR (Reinforcement Learning with Verifiable Rewards) ist eine Methode, die die Schlussfolgerungsfähigkeit von Sprachmodellen verbessert, indem korrekte, objektiv überprüfbare Antworten belohnt werden — am häufigsten in der Wettbewerbsmathematik. Dabei generieren Modelle eine „Gedankenkette” (Chain-of-Thought): einen expliziten schrittweisen Denkprozess. Standard-RLVR entwickelt jedoch idiosynkratische Muster: Sprachvermischung, unlogische Struktur und schlechte Lesbarkeit — was die Nutzung erlernter Muster durch schwächere Modelle oder Menschen unmöglich macht.

Wie funktioniert Tandem RL?

Tandem RL (TRL) verfolgt einen anderen Ansatz: Das stärkere, trainierte Modell generiert abwechselnd Gedankenketten zusammen mit einem eingefrorenen schwächeren Modell. Beide Modelle teilen ein gemeinsames Belohnungssignal. Auf diese Weise lernt das stärkere Modell implizit, so zu schreiben, dass das schwächere es verfolgen kann. Die Autoren (Jiao, Singhal, West, Anderson — EPFL) trainierten TRL auf Qwen3-4B-Instruct mit Wettbewerbsmathematik-Aufgabensätzen.

TRL übertrifft Standard-RLVR in Lesbarkeit und Handoff-Robustheit

Die Ergebnisse zeigen, dass TRL vergleichbare Solo-Leistungen wie Standard-RLVR erzielt — ohne Genauigkeitsverlust bei eigenen Aufgaben. Der entscheidende Unterschied liegt in der Übertragungsqualität: Standard-RLVR vermischt Sprachen und entwickelt nicht übertragbare Muster, während TRL deutlich lesbarere Chain-of-Thought-Sequenzen generiert. Die Arbeit identifiziert drei emergente Eigenschaften desselben Trainings: besserer Handoff auf kleinere Modelle, geringere Verteilungsdivergenz und lesbarerer Chain-of-Thought. Die Arbeit ist als Preprint auf arXiv verfügbar (cs.AI, 21 Seiten).

Häufig gestellte Fragen

Was ist RLVR und warum kann es ein Problem für die Lesbarkeit sein?

RLVR (Reinforcement Learning with Verifiable Rewards) trainiert Modelle, indem korrekte, überprüfbare Antworten belohnt werden, entwickelt jedoch idiosynkratische Muster — Sprachvermischung und nicht übertragbare Chain-of-Thought-Strukturen — was den Einsatz durch schwächere Modelle oder Menschen erschwert.

Wie löst Tandem RL das Problem des Handoffs auf kleinere Modelle?

TRL verwendet ein eingefrorenes schwächeres Modell als Partner bei der Generierung von Chain-of-Thought-Sequenzen, wodurch das stärkere Modell implizit lernt, lesbarer und konsistenter zu schreiben — was zu einem besseren Handoff und geringerer Verteilungsdivergenz führt.

arXiv:2606.28166: Tandem RL — verifizierbare Belohnungen mit besser lesbarer Gedankenkette und verbessertem Handoff auf kleinere Modelle

RLVR und das Lesbarkeits-Problem

Wie funktioniert Tandem RL?

TRL übertrifft Standard-RLVR in Lesbarkeit und Handoff-Robustheit

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten