🟢 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2606.20008: VIMPO — Kritiker-freies Reinforcement Learning übertrifft GRPO bei MATH-500 und AIME

arXiv:2606.20008 ↗

Redaktionelle Illustration: VIMPO — kritiker-freies Reinforcement Learning übertrifft GRPO bei MATH-500 und AIME

VIMPO ist eine neue Reinforcement-Learning-Methode für LLM-Reasoning, die aus KL-regularisiertem RL eine implizite Wertfunktion ableitet — ohne separates Kritiker-Netzwerk. Sie übertrifft GRPO auf vier mathematischen Benchmarks, darunter AIME 2024 und AIME 2025, wobei die Vorteile auch unter verrauschten Belohnungsbedingungen stabil bleiben.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Was ist VIMPO und warum ist es wichtig?

VIMPO (Value-Implicit Policy Optimization) ist eine Reinforcement-Learning-Methode (RL) zum Training von LLM-Modellen für Reasoning-Aufgaben. Sie wurde von Forschenden der UC Berkeley (Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao) entwickelt und am 19. Juni 2026 veröffentlicht.

Das Ausgangsproblem: Die populäre Methode GRPO leidet unter schwachem Credit-Assignment — sie erkennt nicht gut, welcher Schritt in der Reasoning-Kette zur richtigen Antwort beigetragen hat. Die Standardlösung besteht darin, ein separates Kritiker-Netzwerk hinzuzufügen, was jedoch das Training verkompliziert und die Kosten erhöht.

Funktionsweise: Die implizite Wertfunktion

VIMPO trainiert kein Kritiker-Netzwerk. Stattdessen leitet es mathematisch eine Wertfunktion aus den Optimalitätsbedingungen des KL-regularisierten RL ab — eine Funktion, die implizit in der Policy des Modells selbst enthalten ist. Damit erhält man ein Credit-Assignment-Signal ohne zusätzliche Komponente.

Das Ergebnis ist eine Methode, die die praktische Einfachheit des kritiker-freien Trainings (ähnlich wie GRPO) beibehält, aber dessen grundlegenden Mangel behebt.

Ergebnisse: Konsistent besser als GRPO

VIMPO übertrifft GRPO auf allen vier getesteten Benchmarks:

  • MATH-500 — Standard-Mathematik-Benchmark
  • AIME 2024 und AIME 2025 — anspruchsvolle Wettbewerbsmathematik
  • OlympiadBench — Olympiade-Aufgaben

Die Verbesserungen sind konsistent und bleiben auch bei verrauschten Belohnungssignalen stabil — eine wichtige Eigenschaft in realen Anwendungen, bei denen die automatische Bewertung unvollkommen ist.

Bedeutung für die Entwicklung von Reasoning-Modellen

VIMPO bietet einen praktischen Weg zu besserem RL-Training für Reasoning-Modelle ohne die architektonische Komplexität von Zwei-Netzwerk-Systemen. Die Methode ist besonders relevant für Forschungsgruppen mit begrenzten Rechenressourcen, da sie den Bedarf an parallelem Training einer Kritiker-Komponente eliminiert.

Häufig gestellte Fragen

Wie unterscheidet sich VIMPO von GRPO?
GRPO leidet unter einem Credit-Assignment-Problem, da es alle Schritte in einer Reasoning-Kette gleichbehandelt. VIMPO löst dies durch Einführung einer impliziten Wertfunktion, die direkt aus den Optimalitätsbedingungen des KL-regularisierten RL abgeleitet wird — ohne ein separates Kritiker-Netzwerk zu trainieren.
Auf welchen Benchmarks wurde VIMPO getestet?
Auf vier mathematischen Benchmarks: MATH-500, AIME 2024, AIME 2025 und OlympiadBench. Auf allen zeigt VIMPO konsistent bessere Ergebnisse als GRPO, einschließlich Szenarien mit verrauschten Belohnungssignalen.
Wer steckt hinter VIMPO?
Die Autoren sind Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song und Xuandong Zhao von der UC Berkeley. Die Arbeit wurde am 18. Juni eingereicht und am 19. Juni 2026 veröffentlicht.