ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu
Zašto je bitno
Process Reward Agents omogućuju malim zamrznutim modelima (0.5B-8B) da značajno poboljšaju medicinski reasoning bez ikakvog treniranja — Qwen3-4B postiže novi state-of-the-art od 80.8% na MedQA.
Problem verifikacije u medicini
Reasoning u medicinskim domenama posebno je težak jer se međukoraci ne mogu lokalno verificirati — za razliku od matematike ili koda, provjera ispravnosti koraka zahtijeva sintezu informacija iz velikih vanjskih baza znanja. Suptilne greške mogu se propagirati kroz lanac razmišljanja i nikad biti otkrivene.
Što su Process Reward Agents
Tim (Sohn, Sternal, Styppa, Hoefler, Moor) uvodi Process Reward Agents (PRA) — metodu za test-time pružanje domenski utemeljenih, online, korak-po-korak nagrada zamrznutom modelu.
Za razliku od prethodnih Process Reward Modela koji ocjenjuju gotove trajektorije post-hoc, PRA omogućuje search-based dekodiranje koje rangira i rezuje kandidatske trajektorije na svakom koraku generiranja.
Rezultati
- 80.8% točnost na MedQA s Qwen3-4B — novi state-of-the-art na skali od 4B parametara
- Generalizira na neviđene zamrznute modele od 0.5B do 8B parametara
- Poboljšanje točnosti do 25.7% bez ikakvog ažuriranja modela
Nova paradigma
PRA predlaže paradigmu u kojoj su zamrznuti reasoneri odvojeni od domenski specifičnih reward modula. To omogućuje deployment novih backbone modela u kompleksnim domenama bez potrebe za retraining-om — značajno za medicinu gdje je ponovna certifikacija modela skupa i dugotrajna.
Povezane vijesti
ArXiv: Process Reward Agents — real-time feedback poboljšava AI zaključivanje u medicini bez retraininga
ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja
ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%