ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala
Warum es wichtig ist
Process Reward Agents ermoeglichen kleinen eingefrorenen Modellen (0,5B-8B), medizinisches Reasoning ohne jegliches Training signifikant zu verbessern — Qwen3-4B erreicht einen neuen State-of-the-Art von 80,8% auf MedQA.
Das Verifikationsproblem in der Medizin
Reasoning in medizinischen Domaenen ist besonders schwierig, da Zwischenschritte nicht lokal verifiziert werden koennen — anders als in der Mathematik oder beim Code erfordert die Pruefung der Korrektheit eines Schrittes die Synthese von Informationen aus grossen externen Wissensbasen. Subtile Fehler koennen sich durch die Denkkette ausbreiten und nie entdeckt werden.
Was sind Process Reward Agents
Das Team (Sohn, Sternal, Styppa, Hoefler, Moor) fuehrt Process Reward Agents (PRA) ein — eine Methode zur Bereitstellung von domainbasierten, online, schrittweisen Belohnungen fuer ein eingefrorenes Modell zur Testzeit.
Im Gegensatz zu frueheren Process Reward Models, die fertige Trajektorien post-hoc bewerten, ermoeglicht PRA ein suchbasiertes Dekodieren, das Kandidaten-Trajektorien bei jedem Generierungsschritt rankt und beschneidet.
Ergebnisse
- 80,8% Genauigkeit auf MedQA mit Qwen3-4B — neuer State-of-the-Art auf der 4B-Parameter-Skala
- Generalisiert auf ungesehene eingefrorene Modelle von 0,5B bis 8B Parametern
- Genauigkeitsverbesserung von bis zu 25,7% ohne jegliche Modellaktualisierung
Ein neues Paradigma
PRA schlaegt ein Paradigma vor, in dem eingefrorene Reasoner von domainspezifischen Reward-Modulen getrennt werden. Dies ermoeglicht den Einsatz neuer Backbone-Modelle in komplexen Domaenen ohne Retraining — bedeutsam fuer die Medizin, wo die Rezertifizierung von Modellen teuer und zeitaufwaendig ist.
Verwandte Nachrichten
ArXiv: Process Reward Agents — Echtzeit-Feedback verbessert KI-Schlussfolgerungen in der Medizin ohne Retraining
ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten
ArXiv SUPERNOVA: Reinforcement Learning auf natürlichen Anweisungen verbessert Reasoning um 52,8 %