2026年5月7日星期四

19 条新闻 — 🔴 4 重要 , 🟡 14 值得关注 , 🟢 1 有趣

🤖 模型 (3)

🟡 🤖 模型 2026年5月7日 · 2 分钟阅读

arXiv:2605.03195: Terminus-4B——40亿参数终端执行模型在SWE-Bench Pro上与Claude Opus和GPT-5.3-Codex持平，主智能体Token消耗降低约30%

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B是专为智能体系统中的终端执行任务设计的Qwen3微调模型（40亿参数）——在SWE-Bench Pro基准测试上与Claude Sonnet/Opus和GPT-5.3-Codex基线持平甚至超越，同时通过将冗长的构建/测试日志隔离在子智能体上下文中，将主智能体的Token消耗降低约30%。

🟡 🤖 模型 2026年5月7日 · 1 分钟阅读

arXiv:2605.04908: 配备精选制药数据库的Gosset超越前沿大语言模型3.2倍

Gosset是一款配备精选制药数据的专业AI平台，在与四个前沿系统的对比测试中，每次查询返回的已验证药物数量是最佳前沿系统的3.2倍，在十个小众肿瘤学和免疫学靶点上实现了100%精确率和完整召回率。

🟡 🤖 模型 2026年5月7日 · 2 分钟阅读

Google: Gemini API获得多模态文件搜索图像检索能力及Interactions API重大变更

编辑插图：Gemini API获得多模态文件搜索及Interactions API重大变更

Google将Gemini文件搜索扩展至多模态图像检索，使用gemini-embedding-2模型，并在基础元数据中加入media_id以支持视觉引用。同时宣布Interactions API重大变更：outputs字段将改为steps，新默认值自2026年5月20日起生效，旧版方案将于2026年6月6日完全移除。

📦 开源 (1)

🟡 📦 开源 2026年5月7日 · 1 分钟阅读

AMD: vLLM-ATOM插件无需修改vLLM源码即可集成Instinct优化

Editorial illustration: vLLM-ATOM插件无需修改vLLM源码即可集成Instinct优化

AMD发布vLLM-ATOM开源插件，无需修改任何源码即可将Instinct GPU优化集成到vLLM生产框架中。插件通过Python entry_points机制自动激活，支持包括Kimi-K2.5和DeepSeek V3/R1在内的dense和MoE模型，并使用AITER内核实现融合MoE和flash attention。

⚖️ 监管 (1)

🔴 ⚖️ 监管 2026年5月7日 · 2 分钟阅读

EU AI Office: 欧盟就简化《人工智能法》及禁止深度伪造裸照应用达成政治协议

欧盟委员会、欧洲议会和欧盟理事会就「数字综合一揽子计划」达成政治协议，该计划简化了《人工智能法》的执行，并明确禁止深度伪造裸照应用程序。高风险人工智能系统将自2027年12月2日起适用，集成于产品中的人工智能则自2028年8月2日起适用。

🤝 智能体 (5)

🔴 🤝 智能体 2026年5月7日 · 2 分钟阅读

arXiv:2605.06651: Google DeepMind发布AI Co-Mathematician，FrontierMath Tier 4得分48%

Google DeepMind团队发表论文，介绍AI Co-Mathematician——一个供AI智能体与数学家协作研究开放问题的交互式工作台。该系统在FrontierMath Tier 4基准测试中获得48%的成绩，创下所有AI系统的新纪录。

🟡 🤝 智能体 2026年5月7日 · 2 分钟阅读

Anthropic：Managed Agents在公开测试版中获得多智能体会话、Outcomes、Webhooks和Vault刷新功能

Editorial illustration: dijagram više Claude agenata povezanih u jedan session canvas s vault i webhook ikonama

Claude Managed Agents是Anthropic的托管自主智能体平台，2026年5月6日在公开测试版中新增四项功能：多智能体会话、用于定义目标的Outcomes机制、会话与Vault生命周期事件的Webhooks，以及mcp_oauth凭证的后台刷新。此外还新增了按状态过滤会话、按类型和创建时间过滤事件的筛选器。

🟡 🤝 智能体 2026年5月7日 · 2 分钟阅读

GitHub：借助编译器理论的支配节点分析验证智能体行为，准确率达100%，优于智能体自评估的82%

Editorial illustration: dijagram graf strukture s istaknutim dominator čvorovima koji predstavljaju esencijalne korake u agentskom izvršavanju

GitHub发布了一套针对非确定性AI智能体的验证框架，借鉴了编译器理论中的支配节点分析——通过2至10次成功执行的Copilot Coding Agent，系统学习哪些步骤是必要的、哪些是可选的，在区分智能体缺陷与真实产品回归方面达到100%准确率。

🟡 🤝 智能体 2026年5月7日 · 1 分钟阅读

GitHub: Copilot for VS Code获得终端访问权限及自带API密钥支持

GitHub Copilot for Visual Studio Code在四月更新周期（版本1.116至1.119）中新增了全代码库语义搜索、智能体对已打开终端的访问权限，以及为Anthropic、OpenAI等提供商接入自带API密钥的功能。

🟡 🤝 智能体 2026年5月7日 · 2 分钟阅读

vLLM：集成Mooncake分布式KV缓存存储，多轮智能体工作负载吞吐量提升3.8倍、P50首token时延降低46倍

Editorial illustration: mreža GPU čvorova povezanih RDMA linkovima sa centralnim distributed KV cache poolom

vLLM集成了Mooncake分布式KV缓存存储，消除了智能体多轮对话中的前缀重复计算——在12块GB200 GPU上使用真实Codex轨迹测试，吞吐量提升3.8倍，P50首token时延（TTFT）降低46倍，端到端延迟降低8.6倍，缓存命中率从1.7%跃升至92.2%。

🔧 硬件 (1)

🔴 🔧 硬件 2026年5月7日 · 2 分钟阅读

NVIDIA：Spectrum-X多路径可靠连接成为OCP开放标准，面向超大规模AI网络

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X多路径可靠连接（MRC）是一种RDMA传输协议，可将单一连接分布到多条网络路径上，现已通过开放计算项目（OCP）发布为开放规范。MRC已在OpenAI、微软Fairwater数据中心和Oracle Abilene数据中心投入生产，并由AMD、博通、英特尔和微软共同参与开发。

🏥 实践应用 (4)

🟡 🏥 实践应用 2026年5月7日 · 2 分钟阅读

Anthropic: Claude Code v2.1.132 带来25项以上修复及新钩子环境变量

编辑插图：Claude Code v2.1.132带来25项以上修复及新钩子环境变量

Anthropic发布了Claude Code v2.1.132，包含25项以上修复和两个新环境变量：用于钩子集成的CLAUDE_CODE_SESSION_ID和用于原生滚动缓冲区的CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN。同时修复了MCP服务器导致内存占用超过10GB的严重漏洞。

🟡 🏥 实践应用 2026年5月7日 · 1 分钟阅读

Anthropic: Claude Code v2.1.133新增worktree.baseRef参数并修复竞态条件

Editorial illustration: Claude Code v2.1.133新增worktree.baseRef参数并修复竞态条件

Anthropic发布Claude Code v2.1.133，新增worktree.baseRef、sandbox.bwrapPath/socatPath参数以及Hook中的CLAUDE_EFFORT环境变量。此版本修复了并行会话中的竞态条件以及Windows驱动器根路径问题，是本周继v2.1.131和v2.1.132之后的第三次发布。

🟡 🏥 实践应用 2026年5月7日 · 2 分钟阅读

GitHub: 优化智能体工作流实现19%至62%的Token节省

Editorial illustration: 优化智能体工作流实现19%至62%的Token节省

GitHub对生产环境智能体工作流进行监测，发现三大Token浪费来源：不必要的MCP工具、可确定性获取的数据以及错误配置的Bash规则。经优化，各工作流实现了19%至62%的Token节省。

🟢 🏥 实践应用 2026年5月7日 · 1 分钟阅读

arXiv:2605.04012: SymptomAI在Fitbit应用中以约13,917名患者为样本，鉴别诊断准确性优于独立临床医生

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAI是集成于Fitbit应用的对话式AI智能体，在约13,917名参与者中进行测试；在临床评估子集中，其诊断建议相对于独立评估相同对话的临床医生实现了2.47的优势比（OR）。本研究为预印本。

💬 社区 (1)

🔴 💬 社区 2026年5月7日 · 2 分钟阅读

Anthropic：SpaceX成为算力合作伙伴，提供300 MW并将Claude Code速率限制翻倍

Anthropic与SpaceX签署算力合作协议，将在Colossus 1数据中心获得超过300 MW的新算力和22万余块NVIDIA GPU，整个部署将在一个月内完成。与此同时，Claude Code Pro、Max、Team和Enterprise用户的五小时速率限制翻倍，Opus模型的API速率限制也大幅提升。

🛡️ 安全 (3)

🟡 🛡️ 安全 2026年5月7日 · 2 分钟阅读

arXiv:2605.04019: 自动化红队测试智能体对Meta Llama Scout攻击成功率达85%，含45+种攻击和450+种变换

Editorial illustration: automatizirani agent simultano pokreće desetke napadačkih vektora protiv jezičnog modela na ekranu kontrolne ploče

新论文提出了一个基于Dreadnode SDK构建的智能体红队测试系统，集成45+种攻击、450+种变换和130+种评分器，对Meta Llama Scout的攻击成功率达85%，将安全测试时间从数周缩短至数小时，无需手写任何代码。

🟡 🛡️ 安全 2026年5月7日 · 1 分钟阅读

arXiv:2605.04785: AgentTrust以95-97%的准确率拦截AI智能体工具调用

AgentTrust是一款开源运行时系统，可在执行前拦截AI智能体的工具调用——包括文件操作、SQL查询和Shell命令——并返回四种裁定之一。在930个测试场景中实现了95%至97%的准确率，在Shell混淆攻击上的准确率约为93%。

🟡 🛡️ 安全 2026年5月7日 · 2 分钟阅读

arXiv:2605.06390: 自动化对齐研究比看起来更困难

一篇由四位研究者（包括DeepMind/Anthropic的Geoffrey Irving）撰写的新论文指出，AI智能体无法可靠地自动化对齐研究。在缺乏明确评估标准的情况下，优化压力会产生看似合理实则灾难性错误的安全评估，且人类审核者难以察觉。

← 前一天后一天 →