🤖 24 AI
🟡 🤖 模型 2026年4月13日星期一 · 1 分钟阅读

ArXiv PRA:4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

为什么重要

过程奖励代理使小型冻结模型(0.5B-8B)无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。

医学中的验证问题

医学领域的推理特别困难,因为中间步骤无法进行局部验证——与数学或代码不同,验证步骤的正确性需要综合大型外部知识库中的信息。细微的错误可能在推理链中传播,且永远不会被发现。

什么是过程奖励代理

研究团队(Sohn、Sternal、Styppa、Hoefler、Moor)引入了过程奖励代理(PRA)——一种在测试时为冻结模型提供基于领域的在线逐步奖励的方法。

与之前对已完成轨迹进行事后评估的过程奖励模型不同,PRA实现了基于搜索的解码,在每个生成步骤中对候选轨迹进行排序和剪枝。

结果

  • Qwen3-4B在MedQA上达到80.8%的准确率——4B参数规模的新最优成绩
  • 可泛化到0.5B至8B参数的未见过的冻结模型
  • 准确率提升高达25.7%,无需任何模型更新

新范式

PRA提出了一种将冻结推理器与领域特定奖励模块分离的范式。这使得在复杂领域部署新的骨干模型时无需重新训练——这对于模型重新认证既昂贵又耗时的医学领域尤为重要。

🤖 本文由人工智能基于一手来源生成。