🤖 24 AI
🟡 🤖 Modeli ponedjeljak, 13. travnja 2026. · 1 min čitanja

ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu

Zašto je bitno

Process Reward Agents omogućuju malim zamrznutim modelima (0.5B-8B) da značajno poboljšaju medicinski reasoning bez ikakvog treniranja — Qwen3-4B postiže novi state-of-the-art od 80.8% na MedQA.

Problem verifikacije u medicini

Reasoning u medicinskim domenama posebno je težak jer se međukoraci ne mogu lokalno verificirati — za razliku od matematike ili koda, provjera ispravnosti koraka zahtijeva sintezu informacija iz velikih vanjskih baza znanja. Suptilne greške mogu se propagirati kroz lanac razmišljanja i nikad biti otkrivene.

Što su Process Reward Agents

Tim (Sohn, Sternal, Styppa, Hoefler, Moor) uvodi Process Reward Agents (PRA) — metodu za test-time pružanje domenski utemeljenih, online, korak-po-korak nagrada zamrznutom modelu.

Za razliku od prethodnih Process Reward Modela koji ocjenjuju gotove trajektorije post-hoc, PRA omogućuje search-based dekodiranje koje rangira i rezuje kandidatske trajektorije na svakom koraku generiranja.

Rezultati

  • 80.8% točnost na MedQA s Qwen3-4B — novi state-of-the-art na skali od 4B parametara
  • Generalizira na neviđene zamrznute modele od 0.5B do 8B parametara
  • Poboljšanje točnosti do 25.7% bez ikakvog ažuriranja modela

Nova paradigma

PRA predlaže paradigmu u kojoj su zamrznuti reasoneri odvojeni od domenski specifičnih reward modula. To omogućuje deployment novih backbone modela u kompleksnim domenama bez potrebe za retraining-om — značajno za medicinu gdje je ponovna certifikacija modela skupa i dugotrajna.

🤖 Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.