2026年4月13日星期一

4 条新闻 — 🔴 1 重要 , 🟡 2 值得关注 , 🟢 1 有趣

🤖 模型 (2)

过程奖励代理使小型冻结模型（0.5B-8B）无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。

序列级PPO将LLM推理重新表述为上下文老虎机问题，以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。

新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时，没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明，这种能力可以通过强化学习来训练。

面向客户服务的新基准测试揭示了两个现象：'执行差距'（模型能正确分类意图但不执行正确操作）和'共情韧性'（模型在犯逻辑错误的同时保持礼貌）。