ArXiv AgentFloor:小型开放权重模型(0.27B-32B)能胜任短期智能体任务,GPT-5仅在长期规划上保持优势
Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络,分6个能力级别,用于评估16个开放权重模型(参数量0.27B至32B)及GPT-5。结论:小型模型对于短期、结构化的智能体任务已经足够,而前沿模型仅在受限长期规划上保持明显优势。
15 条新闻 — 🔴 3 重要 , 🟡 10 值得关注 , 🟢 2 有趣
Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络,分6个能力级别,用于评估16个开放权重模型(参数量0.27B至32B)及GPT-5。结论:小型模型对于短期、结构化的智能体任务已经足够,而前沿模型仅在受限长期规划上保持明显优势。
Yuxuan Gao、Megan Wang和Yi Ling Yu于2026年5月1日发布了Token Arena——一个在端点层面(78个端点,12个模型系列)评估AI推理的持续基准平台。研究揭示,同一模型在不同端点上的数学/代码基准成绩差异可达12.5分,尾部延迟差异可达数量级,每正确答案能耗差异可达6.2倍。平台在CC BY 4.0许可下发布结果。
美国NIST下属人工智能标准与创新中心(CAISI)于2026年5月1日发布了对DeepSeek V4 Pro模型的独立评估。结论:这是迄今评估过的最强中国AI模型,但在综合能力上落后美国前沿约8个月。评估使用未公开的基准测试,涵盖五个领域:网络安全、软件工程、自然科学、抽象推理和数学。
ICML 2026接收论文通过实证方法证明,增加任务时域长度会由于探索和信用分配问题导致LLM训练严重不稳定。提出的解决方案:在训练时缩短时域,同时在推理阶段引入显式的“时域泛化”机制。该论文为前沿模型训练中的任务时域扩展建立了首批实证规律。
Yan Zhang、Daiqing Wu和Huawen Shen发布了GUI-SD——首个专为GUI定位设计的在线自蒸馏(OPSD)框架,这是AI智能体将自然语言指令映射到界面元素视觉坐标的能力。系统使用特权视觉上下文(边界框和高斯软掩码)及熵引导蒸馏。在六个代表性GUI定位基准上,GUI-SD持续超越基于GRPO的强化学习方法。
AWS于2026年5月4日发布了AgentCore Optimization预览版——这是一个自动化循环,可从生产追踪中生成系统提示词和工具描述的具体改进建议、针对测试集的批量评估,以及具有统计显著性的A/B测试。该系统收集每次模型调用、工具调用和推理步骤的OpenTelemetry兼容追踪,将手动猜测修改替换为基于生产数据的结构化优化周期。
亚马逊于2026年5月4日在SageMaker AI中推出了智能体引导工作流,内置9项智能体技能,涵盖从用例规范到模型部署的完整模型定制生命周期。系统支持SFT、DPO和RLVR训练方法,可在JupyterLab环境中与Kiro(默认)和Claude Code集成,声称能将数月的专业ML工作压缩至数天完成。
新的arXiv预印本介绍了ReClaim——一个拥有17亿参数的基础模型,在来自2亿患者记录的438亿医疗事件上训练而成。在超过1000项诊断任务中,平均AUC达到75.6%,显著优于LightGBM(66.3%)和Delphi专业模型(69.4%)。这开创了基于行政健康数据训练的基础模型新类别。
Claude Code v2.1.128(2026年5月4日发布)带来30余项改进:/mcp面板显示工具数量并标记工具为0的服务器、--plugin-dir支持.zip插件压缩包、修复EnterWorktree丢失本地未推送提交的问题、子代理cache_creation成本降低约3倍,以及修复通过stdin管道传输超过10MB输入时的崩溃问题。
Anthropic于2026年5月4日宣布与Blackstone、Hellman & Friedman和Goldman Sachs作为创始投资方共同成立新的企业AI服务公司。Sequoia、Apollo Global Management、GIC、Leonard Green和General Atlantic作为额外合作伙伴加入。目标市场是缺乏内部资源自行构建Claude解决方案的商业银行、中型制造企业和区域医疗系统。
在波士顿举办的Think 2026大会上,IBM于2026年5月5日发布了AI操作模型——一个基于4大支柱(智能体、数据、自动化、混合云)的框架,以下一代watsonx Orchestrate作为智能体控制平面,IBM Bob作为智能体开发伙伴,Concert平台负责运营,Sovereign Core已全面可用并服务于合规需求。CEO Krishna警告企业间“AI鸿沟”正在扩大。
研究人员Aharon Azulay、Jan Dubiński和Zhuoyun Li在ICML 2026上展示了四类利用视觉模态绕过视觉语言模型安全对齐的攻击方法。视觉加密器在Claude Haiku 4.5上达到40.9%的成功率,而同等文本攻击仅能突破10.7%的过滤器,证实图像开辟了纯语言模型中不存在的攻击类别。
云原生计算基金会(CNCF)安全技术顾问组(TAG)于2026年5月4日发布了保护GitHub Actions CI/CD管道免受供应链攻击的实践指南。Marina Moore、Evan Anderson和Sherine Khoury提出了五项具体实践,并列举了zizmor、frizbee、pinact、ratchet和Dependabot等工具来执行这些实践。