ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu
Process Reward Agents omogućuju malim zamrznutim modelima (0.5B-8B) da značajno poboljšaju medicinski reasoning bez ikakvog treniranja — Qwen3-4B postiže novi state-of-the-art od 80.8% na MedQA.