🟡 🤖 模型 2026年4月13日 · 1 分钟阅读 ArXiv PRA:4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA 过程奖励代理使小型冻结模型(0.5B-8B)无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。
🟡 🤖 模型 2026年4月13日 · 1 分钟阅读 ArXiv SPPO:序列级PPO解决了长推理链中的信用分配问题 序列级PPO将LLM推理重新表述为上下文老虎机问题,以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。
🔴 🤝 智能体 2026年4月13日 · 2 分钟阅读 ArXiv HiL-Bench:没有任何前沿模型知道何时该请求帮助 新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时,没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明,这种能力可以通过强化学习来训练。
🟢 🤝 智能体 2026年4月13日 · 1 分钟阅读 ArXiv SAGE:27个LLM测试——模型理解意图但无法正确执行 面向客户服务的新基准测试揭示了两个现象:'执行差距'(模型能正确分类意图但不执行正确操作)和'共情韧性'(模型在犯逻辑错误的同时保持礼貌)。