YAN:混合专家流匹配模型仅需3个采样步骤即可实现自回归语言模型40倍加速
YAN是一款新型生成语言模型,融合了Transformer与Mamba架构以及混合专家流匹配方法——仅需3个采样步骤即可达到与自回归模型相当的质量,相对自回归基线实现40倍加速,比扩散语言模型最高提速1000倍。该模型将全局传输几何分解为局部专用向量场。
12 条新闻 — 🟡 6 值得关注 , 🟢 6 有趣
YAN是一款新型生成语言模型,融合了Transformer与Mamba架构以及混合专家流匹配方法——仅需3个采样步骤即可达到与自回归模型相当的质量,相对自回归基线实现40倍加速,比扩散语言模型最高提速1000倍。该模型将全局传输几何分解为局部专用向量场。
IG-Search是一种用于训练搜索增强推理AI模型的新方法,使用信息增益(Information Gain)作为步骤级奖励信号。该信号从模型自身的生成概率中派生,无需外部标注。Qwen2.5-3B采用此方法后在7个QA基准上的平均EM得分为0.430——比MR-Search高1.6分,比GiGPO高0.9分,而计算开销仅6.4%。
新的arXiv论文从两个维度系统研究了LLM在最短路径问题上的泛化能力:空间迁移到未见地图效果良好,但按视野长度扩展由于递归不稳定性而持续失败。结论对自主代理有直接影响——训练数据覆盖范围定义了能力边界,RL提高稳定性但不扩展边界,推理时扩展有帮助但无法解决长度扩展问题。
Autogenesis(AGP)是一种将AI代理、提示词、工具和记忆建模为带有显式状态和版本化接口的注册资源的协议。自演化协议层(SEPL)提供闭环操作接口,用于提议、评估和提交改进,并带有审计跟踪和回滚功能,从而解决了迭代修改自身组件的代理的不稳定性问题。
RadAgent是一款用于胸部CT影像解读的AI代理,通过透明的逐步流程,在宏观F1得分上相对超越基线CT-Chat模型36.4%,微观F1提升19.6%,对抗鲁棒性提升41.9%。该工具可生成带有决策检查轨迹的放射科报告,Faithfulness得分达37%,而基线为0%。
CoopEval 是一个新基准,用于测试大语言模型 (LLM) 智能体在囚徒困境和公共物品博弈等经典社会困境中的表现。反直觉发现:更强的推理模型比较弱的模型更频繁地背叛,在单次混合动机情境中系统性地破坏合作。对于需要在自身利益与集体利益之间平衡的多智能体 AI 部署具有重要意义。
Mind DeepResearch(MindDR)是一个新的多智能体深度研究框架,使用约 300 亿参数的模型(Qwen2.5 或 DeepSeek 级别,而非 GPT-4 或 Claude Opus 规模)实现具有竞争力的结果。架构包括:规划智能体 + 深度搜索智能体 + 报告智能体,以及含数据合成的四阶段训练流水线,已于 2026 年 4 月 17 日发布技术报告。
新 arXiv 论文通过逆向工程 TypeScript 源码分析了 Claude Code 架构,并与开源智能体 OpenClaw 进行对比。论文识别出 5 项核心价值(人类权威、安全性、执行力、能力、适应性)和 13 项设计原则。系统的核心出人意料地简单:一个调用模型、执行工具并等待用户输入的 while 循环。
RACER是一种无需训练即可加速大型语言模型的方法,结合基于检索和基于logits的草稿策略进行推测解码。相比自回归解码实现超过2倍加速,超越了所有此前的无训练方法,并被ACL 2026 Findings录用。已在Spec-Bench、HumanEval和MGSM-ZH基准上进行测试。
新 arXiv 论文表明,通过 RLVR(基于可验证奖励的强化学习)训练的模型,会系统性地放弃归纳规则,转而枚举实例级标签,以通过验证器——而非学习真正的关系模式。这是支撑当前顶级推理模型的训练范式中一个关键的失效模式。
SAGO是一种梯度合成框架,将机器遗忘重新表述为两任务非对称问题——知识保留为主要目标,遗忘为辅助目标。在WMDP Bio基准上,将MMLU从基线44.6%经PCGrad的94%提升至96%,同时保持相当的遗忘得分,从而解决了此前遗忘方法过度破坏模型有用知识的主要问题。
新 arXiv 论文提出了一种企业 AI 的架构解决方案:不是在模型端防止大语言模型 (LLM) 错误,而是在消费端定义类型化动作契约,以静态方式检测未授权操作、格式错误的请求和跨工作区执行。该方法将安全负担从概率性模型转移到确定性类型系统。