🤖 24 AI

2026年4月19日星期日

12 条新闻 — 🟡 6 值得关注 , 🟢 6 有趣

← 前一天 后一天 →

🤖 模型 (3)

🟡 🤖 模型 2026年4月19日 · 2 分钟阅读

YAN:混合专家流匹配模型仅需3个采样步骤即可实现自回归语言模型40倍加速

编辑插图:抽象向量场与生成模型的并行流

YAN是一款新型生成语言模型,融合了Transformer与Mamba架构以及混合专家流匹配方法——仅需3个采样步骤即可达到与自回归模型相当的质量,相对自回归基线实现40倍加速,比扩散语言模型最高提速1000倍。该模型将全局传输几何分解为局部专用向量场。

🟢 🤖 模型 2026年4月19日 · 2 分钟阅读

IG-Search:以信息增益为奖励信号改善搜索增强推理,计算开销仅6.4%

编辑插图:信息增益曲线与推理步骤中的搜索箭头

IG-Search是一种用于训练搜索增强推理AI模型的新方法,使用信息增益(Information Gain)作为步骤级奖励信号。该信号从模型自身的生成概率中派生,无需外部标注。Qwen2.5-3B采用此方法后在7个QA基准上的平均EM得分为0.430——比MR-Search高1.6分,比GiGPO高0.9分,而计算开销仅6.4%。

🟢 🤖 模型 2026年4月19日 · 2 分钟阅读

大语言模型能学习图上的最短路径——但当任务视野延伸时就会失效

编辑插图:带有节点和路径的图,远处渐渐消失的长视野

新的arXiv论文从两个维度系统研究了LLM在最短路径问题上的泛化能力:空间迁移到未见地图效果良好,但按视野长度扩展由于递归不稳定性而持续失败。结论对自主代理有直接影响——训练数据覆盖范围定义了能力边界,RL提高稳定性但不扩展边界,推理时扩展有帮助但无法解决长度扩展问题。

🤝 智能体 (4)

🟡 🤝 智能体 2026年4月19日 · 2 分钟阅读

Autogenesis:支持版本化资源与回滚机制的AI代理自演化新协议

编辑插图:带有反馈回路和版本化流的模块化组件系统

Autogenesis(AGP)是一种将AI代理、提示词、工具和记忆建模为带有显式状态和版本化接口的注册资源的协议。自演化协议层(SEPL)提供闭环操作接口,用于提议、评估和提交改进,并带有审计跟踪和回滚功能,从而解决了迭代修改自身组件的代理的不稳定性问题。

🟡 🤝 智能体 2026年4月19日 · 2 分钟阅读

RadAgent:逐步解读胸部CT影像的AI工具,宏观F1得分相对提升36%

编辑插图:AI代理分析胸部CT影像,医疗场景,无人脸

RadAgent是一款用于胸部CT影像解读的AI代理,通过透明的逐步流程,在宏观F1得分上相对超越基线CT-Chat模型36.4%,微观F1提升19.6%,对抗鲁棒性提升41.9%。该工具可生成带有决策检查轨迹的放射科报告,Faithfulness得分达37%,而基线为0%。

🟢 🤝 智能体 2026年4月19日 · 2 分钟阅读

CoopEval:更强的推理模型在社会困境中系统性地更不合作——多智能体 AI 的反直觉发现

编辑插图:两个抽象智能体处于社会困境中,博弈论元素

CoopEval 是一个新基准,用于测试大语言模型 (LLM) 智能体在囚徒困境和公共物品博弈等经典社会困境中的表现。反直觉发现:更强的推理模型比较弱的模型更频繁地背叛,在单次混合动机情境中系统性地破坏合作。对于需要在自身利益与集体利益之间平衡的多智能体 AI 部署具有重要意义。

🟢 🤝 智能体 2026年4月19日 · 2 分钟阅读

Mind DeepResearch:三智能体框架用 30B 参数模型在深度研究任务上实现顶级结果

编辑插图:三个抽象智能体在研究过程中协作,网络结构

Mind DeepResearch(MindDR)是一个新的多智能体深度研究框架,使用约 300 亿参数的模型(Qwen2.5 或 DeepSeek 级别,而非 GPT-4 或 Claude Opus 规模)实现具有竞争力的结果。架构包括:规划智能体 + 深度搜索智能体 + 报告智能体,以及含数据合成的四阶段训练流水线,已于 2026 年 4 月 17 日发布技术报告。

🏥 实践应用 (2)

🛡️ 安全 (3)

← 前一天 后一天 →