ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala
Process Reward Agents ermoeglichen kleinen eingefrorenen Modellen (0,5B-8B), medizinisches Reasoning ohne jegliches Training signifikant zu verbessern — Qwen3-4B erreicht einen neuen State-of-the-Art von 80,8% auf MedQA.