🤖 24 AI

🤖 模型

5 条新闻

🟡 🤖 模型 2026年4月14日 · 1 分钟阅读

ArXiv:过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

研究人员提出了过程奖励智能体(PRA),一种在医学领域AI推理过程中提供逐步实时反馈的新方法。该系统可与现有模型配合使用,无需重新训练,并在医学基准测试中取得了显著成果。

🟡 🤖 模型 2026年4月13日 · 1 分钟阅读

ArXiv PRA:4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

过程奖励代理使小型冻结模型(0.5B-8B)无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。

🟡 🤖 模型 2026年4月13日 · 1 分钟阅读

ArXiv SPPO:序列级PPO解决了长推理链中的信用分配问题

序列级PPO将LLM推理重新表述为上下文老虎机问题,以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。

🟡 🤖 模型 2026年4月11日 · 2 分钟阅读

ArXiv SUPERNOVA:基于自然指令的强化学习将推理能力提升 52.8%

新论文 SUPERNOVA 表明,对现有指令调优数据集的系统性整理可以显著提升 LLM 的推理能力。在 SUPERNOVA 上训练的模型在 BBEH 基准上实现了高达 52.8% 的相对改进。

🟢 🤖 模型 2026年4月10日 · 1 分钟阅读

Sentence Transformers v5.4新增对多模态嵌入与重排序模型的支持

HuggingFace的Sentence Transformers库发布了5.4版本,引入了多模态嵌入和重排序模型。用户现在可以将文本、图像、音频和视频映射到统一的嵌入空间,并进行跨模态相似度计算——实现不同类型内容搜索的统一。