全部 🤖 模型 🚀 创业公司 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🟡 🤖 模型 2026年4月13日星期一 · 1 分钟阅读

ArXiv PRA：4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

为什么重要

过程奖励代理使小型冻结模型（0.5B-8B）无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。

医学中的验证问题

医学领域的推理特别困难，因为中间步骤无法进行局部验证——与数学或代码不同，验证步骤的正确性需要综合大型外部知识库中的信息。细微的错误可能在推理链中传播，且永远不会被发现。

什么是过程奖励代理

研究团队（Sohn、Sternal、Styppa、Hoefler、Moor）引入了过程奖励代理（PRA）——一种在测试时为冻结模型提供基于领域的在线逐步奖励的方法。

与之前对已完成轨迹进行事后评估的过程奖励模型不同，PRA实现了基于搜索的解码，在每个生成步骤中对候选轨迹进行排序和剪枝。

结果

Qwen3-4B在MedQA上达到80.8%的准确率——4B参数规模的新最优成绩
可泛化到0.5B至8B参数的未见过的冻结模型
准确率提升高达25.7%，无需任何模型更新

新范式

PRA提出了一种将冻结推理器与领域特定奖励模块分离的范式。这使得在复杂领域部署新的骨干模型时无需重新训练——这对于模型重新认证既昂贵又耗时的医学领域尤为重要。

🤖 本文由人工智能基于一手来源生成。

来源

ArXiv：用于引导知识密集型推理的过程奖励代理 ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🟡 2026-04-14

ArXiv：过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

🟡 2026-04-13

ArXiv SPPO：序列级PPO解决了长推理链中的信用分配问题

🟡 2026-04-11

ArXiv SUPERNOVA：基于自然指令的强化学习将推理能力提升 52.8%

← 返回首页