EvoLM: 8B-Modell ohne Aufsicht +25,7 % RewardBench

EvoLM ist eine Post-Training-Methode, die externe Überwachung vollständig eliminiert — ein Qwen3-8B-Rubric-Generator übertrifft GPT-4.1 auf RewardBench-2 um 25,7 % und SkyWork-RM um 16 %, während die trainierte Policy 69,3 % auf dem OLMo3-Adapt-Benchmark erreicht.

Ein neues arXiv-Paper stellt eine Post-Training-Methode vor, die die Abhängigkeit von externer Überwachung vollständig eliminiert. EvoLM ermöglicht es einem Sprachmodell, sich mithilfe sogenannter „Discriminative Rubrics” selbst zu verbessern — explizite Kriterienskalen, die iterativ gemeinsam mit dem Policy-Modell trainiert werden.

Was macht diesen Ansatz anders?

Klassisches RLHF (Reinforcement Learning from Human Feedback — eine Fine-Tuning-Methode auf Basis menschlicher Bewertungen) erfordert entweder menschliche Labels oder ein separates, darauf trainiertes Reward-Modell. EvoLM verwendet stattdessen temporalen Kontrast: Ältere Modellausgaben werden mit neueren verglichen, und aus dieser Differenz werden Signale zur Verbesserung der Rubrics extrahiert.

Das System strukturiert die inhärente Bewertungsfähigkeit des Modells in explizite Rubrics, die abwechselnd mit der Policy trainiert werden. Damit schließt sich eine Schleife, in der Generator und Evaluator dieselbe Basis teilen, aber asynchron voranschreiten.

Zahlen, die Industrie-Benchmarks verschieben

Der Qwen3-8B-Rubric-Generator übertrifft GPT-4.1 auf RewardBench-2 um 25,7 Prozentpunkte und SkyWork-RM (8B) — das bisherige State-of-the-Art-Reward-Modell — um 16 Prozentpunkte. Die mit dieser Methode trainierte Policy erreicht 69,3 % auf der OLMo3-Adapt-Evaluationssuite.

Dies ist ein seltener Fall, in dem ein offenes, vergleichsweise kleines Modell ein Frontier-Modell in der Evaluatorrolle übertrifft — eine Domäne, die bislang riesigen geschlossenen Systemen vorbehalten war.

Warum ist das für das RLHF-Ökosystem wichtig?

Wenn die Ergebnisse durch unabhängige Replikation bestätigt werden, eröffnet EvoLM den Weg zu günstigerem und transparenterem Training. Ein Reward-Modell ist ein Modell, das die Ausgabequalität eines anderen Modells bewertet; eine Rubric ist eine explizite Kriterienskala. Offene Alternativen zu GPT-4.1- und Claude-Judge-Systemen sind besonders wichtig für Forschungsteams und Unternehmen, die keine externe API-Abhängigkeit in der kritischen Trainingsphase wünschen.

Die Frage, wie robust die Methode gegenüber „Reward Hacking” ist, wenn das Modell sich selbst bewertet, bleibt offen — die Ergebnisse auf öffentlichen Benchmarks legen jedoch nahe, dass temporaler Kontrast ausreichenden Schutz vor Qualitätskollaps bietet.

Häufig gestellte Fragen

Was löst EvoLM, was klassisches RLHF nicht kann?

Es eliminiert die Notwendigkeit eines externen Reward-Modells oder menschlicher Labels, da Policy und Discriminative Rubrics aus den eigenen älteren und neueren Ausgaben des Modells ko-evolvieren.

Warum ist es bedeutsam, dass ein 8B-Modell GPT-4.1 übertrifft?

Es zeigt, dass offene kleinere Modelle die Evaluatorrolle in RLHF-Pipelines übernehmen können, was die Abhängigkeit von Frontier-APIs und die Trainingskosten senkt.

Was sind Discriminative Rubrics im Kontext von EvoLM?

Explizite Kriterienskalen, die die inhärente Bewertungsfähigkeit des Modells in eine Form strukturieren, die iterativ gemeinsam mit der Policy trainiert werden kann.

arXiv:2605.03871: EvoLM — Sprachmodelle, die sich ohne externe Überwachung selbst verbessern

Was macht diesen Ansatz anders?

Zahlen, die Industrie-Benchmarks verschieben

Warum ist das für das RLHF-Ökosystem wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten