ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu

Problem verifikacije u medicini

Reasoning u medicinskim domenama posebno je težak jer se međukoraci ne mogu lokalno verificirati — za razliku od matematike ili koda, provjera ispravnosti koraka zahtijeva sintezu informacija iz velikih vanjskih baza znanja. Suptilne greške mogu se propagirati kroz lanac razmišljanja i nikad biti otkrivene.

Što su Process Reward Agents

Tim (Sohn, Sternal, Styppa, Hoefler, Moor) uvodi Process Reward Agents (PRA) — metodu za test-time pružanje domenski utemeljenih, online, korak-po-korak nagrada zamrznutom modelu.

Za razliku od prethodnih Process Reward Modela koji ocjenjuju gotove trajektorije post-hoc, PRA omogućuje search-based dekodiranje koje rangira i rezuje kandidatske trajektorije na svakom koraku generiranja.

Rezultati

80.8% točnost na MedQA s Qwen3-4B — novi state-of-the-art na skali od 4B parametara
Generalizira na neviđene zamrznute modele od 0.5B do 8B parametara
Poboljšanje točnosti do 25.7% bez ikakvog ažuriranja modela

Nova paradigma

PRA predlaže paradigmu u kojoj su zamrznuti reasoneri odvojeni od domenski specifičnih reward modula. To omogućuje deployment novih backbone modela u kompleksnim domenama bez potrebe za retraining-om — značajno za medicinu gdje je ponovna certifikacija modela skupa i dugotrajna.

ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu

Problem verifikacije u medicini

Što su Process Reward Agents

Rezultati

Nova paradigma

Izvori

Povezane vijesti