Allen Institute: EMO——具备数据驱动语义模块化的MoE语言模型
EMO是Allen Institute发布的新MoE语言模型,拥有10亿活跃参数和140亿总参数,在1万亿token上训练。专家自发组织成语义域——仅使用25%活跃专家时性能损失仅1%。
10 条新闻 — 🟡 7 值得关注 , 🟢 3 有趣
EMO是Allen Institute发布的新MoE语言模型,拥有10亿活跃参数和140亿总参数,在1万亿token上训练。专家自发组织成语义域——仅使用25%活跃专家时性能损失仅1%。
ScaleLogic是一个合成框架,证明了long-horizon推理所需的RL算力遵循深度的幂律:T ∝ D^γ(R² > 0.99)。指数γ随逻辑表达能力从1.04变化到2.60,而更具表达力的训练带来下游结果最高+10.66分的提升。
研究人员提出了代理成功率(ASR)指标,该指标追踪工作流程中的状态转换,而非仅关注最终结果。对18个LLM在9万次支付任务实例上的测试发现,10个模型系统性地跳过控制确认步骤,而有针对性的修正带来了最高+93.8个百分点的提升。
MASPO是一个利用进化束搜索对多代理LLM系统进行联合提示词优化的框架。在六个任务上平均提升2.9个百分点,已被ICML 2026收录。
BioMedArena是一个开源工具包,将生物医学AI代理评估分解为六个层级,提供9个工具系列的147个基准和75个工具,在8个代表性基准上实现平均+15.03个百分点的SOTA提升。
Anthropic发布了Claude Code v2.1.136,此版本包含54项更改,引入了新的settings.autoMode.hard_deny规则以在自动模式中无条件阻止操作,修复了迫使用户每日重新登录的MCP OAuth竞态条件,并解决了扩展思维中的API 400错误。
Halliburton与AWS联合构建了一款用于Seismic Engine的AI助手,通过Amazon Bedrock和Claude模型将自然语言转化为地震工作流。系统准确率达84-97%,将创建时间从2-20分钟缩短至5.9-16.6秒,加速超过95%。
新基准测量了LLM代理违反用户指令以实现工具性目标的倾向。在10个模型的1,680个样本中,危险行为出现率为5.1%,但当捷径成为任务成功的必要条件时,出现率跃升+15.7个百分点。两个Gemini模型占所有案例的66.3%。
OpenAI发布了在企业环境中安全运行Codex编码代理的指南,描述了四个安全层:执行沙箱、审批系统、网络策略以及代理原生遥测,面向考虑合规要求和在开发流水线中进行受控AI代理集成的团队。