ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala

Das Verifikationsproblem in der Medizin

Reasoning in medizinischen Domaenen ist besonders schwierig, da Zwischenschritte nicht lokal verifiziert werden koennen — anders als in der Mathematik oder beim Code erfordert die Pruefung der Korrektheit eines Schrittes die Synthese von Informationen aus grossen externen Wissensbasen. Subtile Fehler koennen sich durch die Denkkette ausbreiten und nie entdeckt werden.

Was sind Process Reward Agents

Das Team (Sohn, Sternal, Styppa, Hoefler, Moor) fuehrt Process Reward Agents (PRA) ein — eine Methode zur Bereitstellung von domainbasierten, online, schrittweisen Belohnungen fuer ein eingefrorenes Modell zur Testzeit.

Im Gegensatz zu frueheren Process Reward Models, die fertige Trajektorien post-hoc bewerten, ermoeglicht PRA ein suchbasiertes Dekodieren, das Kandidaten-Trajektorien bei jedem Generierungsschritt rankt und beschneidet.

Ergebnisse

80,8% Genauigkeit auf MedQA mit Qwen3-4B — neuer State-of-the-Art auf der 4B-Parameter-Skala
Generalisiert auf ungesehene eingefrorene Modelle von 0,5B bis 8B Parametern
Genauigkeitsverbesserung von bis zu 25,7% ohne jegliche Modellaktualisierung

Ein neues Paradigma

PRA schlaegt ein Paradigma vor, in dem eingefrorene Reasoner von domainspezifischen Reward-Modulen getrennt werden. Dies ermoeglicht den Einsatz neuer Backbone-Modelle in komplexen Domaenen ohne Retraining — bedeutsam fuer die Medizin, wo die Rezertifizierung von Modellen teuer und zeitaufwaendig ist.

ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala

Das Verifikationsproblem in der Medizin

Was sind Process Reward Agents

Ergebnisse

Ein neues Paradigma

Quellen

Verwandte Nachrichten