2026年5月5日星期二

15 条新闻 — 🔴 3 重要 , 🟡 10 值得关注 , 🟢 2 有趣

🤖 模型 (4)

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

ArXiv AgentFloor：小型开放权重模型（0.27B-32B）能胜任短期智能体任务，GPT-5仅在长期规划上保持优势

Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络，分6个能力级别，用于评估16个开放权重模型（参数量0.27B至32B）及GPT-5。结论：小型模型对于短期、结构化的智能体任务已经足够，而前沿模型仅在受限长期规划上保持明显优势。

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

ArXiv Token Arena：统一能耗与认知的持续基准，揭示端点间每正确答案能耗6.2倍差距

Yuxuan Gao、Megan Wang和Yi Ling Yu于2026年5月1日发布了Token Arena——一个在端点层面（78个端点，12个模型系列）评估AI推理的持续基准平台。研究揭示，同一模型在不同端点上的数学/代码基准成绩差异可达12.5分，尾部延迟差异可达数量级，每正确答案能耗差异可达6.2倍。平台在CC BY 4.0许可下发布结果。

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

NIST CAISI：DeepSeek V4 Pro是迄今最强中国AI模型，但落后美国前沿约8个月

美国NIST下属人工智能标准与创新中心（CAISI）于2026年5月1日发布了对DeepSeek V4 Pro模型的独立评估。结论：这是迄今评估过的最强中国AI模型，但在综合能力上落后美国前沿约8个月。评估使用未公开的基准测试，涵盖五个领域：网络安全、软件工程、自然科学、抽象推理和数学。

🟢 🤖 模型 2026年5月5日 · 2 分钟阅读

arXiv:2605.02572: 长时域使LLM训练不稳定 — ICML 2026论文提出“时域泛化”解决方案

ICML 2026接收论文通过实证方法证明，增加任务时域长度会由于探索和信用分配问题导致LLM训练严重不稳定。提出的解决方案：在训练时缩短时域，同时在推理阶段引入显式的“时域泛化”机制。该论文为前沿模型训练中的任务时域扩展建立了首批实证规律。

⚖️ 监管 (1)

🔴 ⚖️ 监管 2026年5月5日 · 2 分钟阅读

NIST CAISI将前沿AI国家安全测试扩展至谷歌DeepMind、微软和xAI

NIST人工智能标准与创新中心（CAISI）于2026年5月5日与谷歌DeepMind、微软和xAI签署了扩展协议，用于前沿模型的部署前和部署后测试。CAISI迄今已开展40余次评估，包括对未公开的最先进模型的测试，相关工作在移除安全限制措施的保密环境中常规进行。

🤝 智能体 (3)

🟡 🤝 智能体 2026年5月5日 · 2 分钟阅读

ArXiv GUI-SD：首个面向GUI定位的在线自蒸馏框架，在六个基准上超越GRPO强化学习

Yan Zhang、Daiqing Wu和Huawen Shen发布了GUI-SD——首个专为GUI定位设计的在线自蒸馏（OPSD）框架，这是AI智能体将自然语言指令映射到界面元素视觉坐标的能力。系统使用特权视觉上下文（边界框和高斯软掩码）及熵引导蒸馏。在六个代表性GUI定位基准上，GUI-SD持续超越基于GRPO的强化学习方法。

🟡 🤝 智能体 2026年5月5日 · 2 分钟阅读

AWS Bedrock AgentCore Optimization进入预览：从生产追踪到A/B测试的自动化循环，基于OpenTelemetry追踪

AWS于2026年5月4日发布了AgentCore Optimization预览版——这是一个自动化循环，可从生产追踪中生成系统提示词和工具描述的具体改进建议、针对测试集的批量评估，以及具有统计显著性的A/B测试。该系统收集每次模型调用、工具调用和推理步骤的OpenTelemetry兼容追踪，将手动猜测修改替换为基于生产数据的结构化优化周期。

🟡 🤝 智能体 2026年5月5日 · 2 分钟阅读

AWS SageMaker AI 推出9项内置技能的智能体微调工作流，集成Kiro与Claude Code

亚马逊于2026年5月4日在SageMaker AI中推出了智能体引导工作流，内置9项智能体技能，涵盖从用例规范到模型部署的完整模型定制生命周期。系统支持SFT、DPO和RLVR训练方法，可在JupyterLab环境中与Kiro（默认）和Claude Code集成，声称能将数月的专业ML工作压缩至数天完成。

🔧 硬件 (1)

🟡 🔧 硬件 2026年5月5日 · 2 分钟阅读

ArXiv SAGA：AI智能体的工作流原子化GPU调度在64-GPU集群上实现1.64倍任务完成提速，被HPDC 2026接收

Dongxin Guo、Jikun Wu和Siu Ming Yiu团队于2026年5月1日发布了SAGA——一种面向GPU集群上AI智能体的工作流原子化调度器，将整个智能体工作流视为单个可调度单元而非单次LLM调用。该系统在64-GPU集群上实现任务完成时间1.64倍的几何平均缩减，在多租户负载下SLO达成率为99.2%。论文已被HPDC 2026（克利夫兰，2026年7月13-16日）接收。

🏥 实践应用 (2)

🟡 🏥 实践应用 2026年5月5日 · 2 分钟阅读

arXiv:2605.02740: ReClaim — 基于2亿患者记录训练的基础模型在1000+医疗任务上达到平均AUC 75.6%

新的arXiv预印本介绍了ReClaim——一个拥有17亿参数的基础模型，在来自2亿患者记录的438亿医疗事件上训练而成。在超过1000项诊断任务中，平均AUC达到75.6%，显著优于LightGBM（66.3%）和Delphi专业模型（69.4%）。这开创了基于行政健康数据训练的基础模型新类别。

🟡 🏥 实践应用 2026年5月5日 · 2 分钟阅读

Anthropic Claude Code v2.1.128：30余项修复、.zip插件支持及子代理缓存创建成本降低约3倍

Claude Code v2.1.128（2026年5月4日发布）带来30余项改进：/mcp面板显示工具数量并标记工具为0的服务器、--plugin-dir支持.zip插件压缩包、修复EnterWorktree丢失本地未推送提交的问题、子代理cache_creation成本降低约3倍，以及修复通过stdin管道传输超过10MB输入时的崩溃问题。

💬 社区 (2)

🔴 💬 社区 2026年5月5日 · 2 分钟阅读

Anthropic联合Blackstone、Hellman & Friedman和Goldman Sachs成立面向中端市场的企业AI服务公司

Anthropic于2026年5月4日宣布与Blackstone、Hellman & Friedman和Goldman Sachs作为创始投资方共同成立新的企业AI服务公司。Sequoia、Apollo Global Management、GIC、Leonard Green和General Atlantic作为额外合作伙伴加入。目标市场是缺乏内部资源自行构建Claude解决方案的商业银行、中型制造企业和区域医疗系统。

🟡 💬 社区 2026年5月5日 · 2 分钟阅读

IBM Think 2026：Krishna发布基于4大支柱的AI操作模型，涵盖watsonx Orchestrate、IBM Bob与Sovereign Core

在波士顿举办的Think 2026大会上，IBM于2026年5月5日发布了AI操作模型——一个基于4大支柱（智能体、数据、自动化、混合云）的框架，以下一代watsonx Orchestrate作为智能体控制平面，IBM Bob作为智能体开发伙伴，Concert平台负责运营，Sovereign Core已全面可用并服务于合规需求。CEO Krishna警告企业间“AI鸿沟”正在扩大。

🛡️ 安全 (2)

🔴 🛡️ 安全 2026年5月5日 · 2 分钟阅读

ArXiv：视觉图像以40.9%的成功率绕过视觉语言模型安全过滤器，ICML 2026论文揭示

研究人员Aharon Azulay、Jan Dubiński和Zhuoyun Li在ICML 2026上展示了四类利用视觉模态绕过视觉语言模型安全对齐的攻击方法。视觉加密器在Claude Haiku 4.5上达到40.9%的成功率，而同等文本攻击仅能突破10.7%的过滤器，证实图像开辟了纯语言模型中不存在的攻击类别。

🟢 🛡️ 安全 2026年5月5日 · 2 分钟阅读

CNCF：固定到不可变摘要、最小权限令牌和临时运行器——更安全的GitHub Actions管道实践指南

云原生计算基金会（CNCF）安全技术顾问组（TAG）于2026年5月4日发布了保护GitHub Actions CI/CD管道免受供应链攻击的实践指南。Marina Moore、Evan Anderson和Sherine Khoury提出了五项具体实践，并列举了zizmor、frizbee、pinact、ratchet和Dependabot等工具来执行这些实践。

← 前一天后一天 →