🤝 智能体

145 条新闻

🔴 🤝 智能体 2026年5月23日 · 3 分钟阅读

arXiv:2605.22502:将智能体工作流编译进LLM权重,以百分之一的成本实现接近前沿的质量

编辑插图:工作流节点坍缩成紧凑的神经网络核心

研究人员证明,复杂的智能体工作流可以直接编码到微调后的小型模型权重中,而非外部编排框架(如LangChain或LangGraph)。该方法在旅行预订、Zoom支持和保险等三个真实场景(14至55个节点的工作流)中实现了接近前沿的质量,推理成本降低100倍。

🔴 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22794:MOSS展示通过修改自身源代码进行自我改进的智能体

编辑插图:AI 代理在沙箱循环中重写自己的源代码

研究人员提出了MOSS,一个通过重写自身源代码来改进的自主智能体框架——而不仅仅是提示词或微调权重。在OpenClaw基准测试中,一轮MOSS自我进化将分数从0.25提升至0.61,无需任何人工干预,证明智能体可以修复仅靠纯文本方法无法触及的路由、钩子和调度逻辑。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22535:TerminalWorld基准测试在真实Linux终端任务中评估LLM智能体,无需模拟环境

编辑插图:包含git和bash命令的终端提示符及执行命令的AI智能体

TerminalWorld是一项新基准测试,在真实Linux进程中对LLM智能体进行bash、git和文件操作的评估,无需任何模拟环境。由Zhaoyang Chu和Jiarui Hu领衔的八位作者为「计算机使用」智能体设立了新标杆,与Claude Code、GitHub Copilot Workspace和Cursor智能体模式等工具直接相关。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.149带来/usage分类明细并修复PowerShell权限绕过

编辑插图:终端中带使用细分图表和安全盾牌

Anthropic发布了Claude Code CLI v2.1.149,将/usage命令扩展为按类别显示成本明细(skills、subagents、plugins、每个MCP服务器)。该版本修复了两个安全漏洞:PowerShell内置函数导致的权限绕过和git worktree沙箱的错误allowlist。还新增了企业设置allowAllClaudeAiMcps,方便连接云端MCP连接器。

🔴 🤝 智能体 2026年5月22日 · 2 分钟阅读

Microsoft Research:MagenticLite + Fara1.5(4B/9B/27B)— 专为小型模型优化的智能体AI达到SOTA

编辑插图:MagenticLite + Fara1.5(4B/9B/27B)— 专为小型模型优化的智能体AI达到SOTA

Microsoft Research于2026年5月21日发布了针对小型模型智能体AI的三件套:MagenticLite(浏览器和文件系统UI应用程序)、MagenticBrain(从Qwen 3 14B微调的14B编排模型)和Fara1.5(4B、9B、27B三种规格的计算机使用模型)。Fara1.5-27B在Online-Mind2Web基准测试(300项网络任务)中达到SOTA 90%以上,几乎是前代Fara-7B性能的两倍。目标是证明智能体AI不需要巨型模型 — 只需设计良好的协同工具和执行框架。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

AWS:Nova Act 获得HIPAA合规资格 — 面向医疗工作流的ePHI智能体自动化

编辑插图:Nova Act 获得HIPAA合规资格 — 面向医疗工作流的ePHI智能体自动化

AWS于2026年5月21日宣布Amazon Nova Act——用于浏览器和UI工作流自动化的智能体AI服务——已获得正式HIPAA合规资格。医疗机构现在可以使用Nova Act处理受保护的健康信息(ePHI),包括通过供应商网络门户自动完成预授权、保险核查和转诊发送。该服务与Amazon Bedrock AgentCore及Strand Agents框架集成,需要签署BAA协议和AWS KMS加密,目前仅在美东(北弗吉尼亚)地区提供。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

Anthropic:Claude Code v2.1.147 引入Workflow工具实现确定性多智能体编排

编辑插图:Claude Code v2.1.147 引入Workflow工具实现确定性多智能体编排

Anthropic于2026年5月21日20:39 UTC发布Claude Code v2.1.147,引入了Workflow工具 — Claude Code生态系统中首个确定性多智能体编排机制。该工具初始默认禁用,通过环境变量CLAUDE_CODE_WORKFLOWS=1激活。同一版本将现有/simplify命令重命名为/code-review(支持高/中/低三个努力级别),并新增针对原型污染和基于thenable的逃逸攻击的沙箱加固。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

LangChain:从令牌流到智能体流 — 类型化通道取代多智能体UI的经典流式传输

编辑插图:从令牌流到智能体流 — 类型化通道取代多智能体UI的经典流式传输

LangChain于2026年5月21日发布了Christian Bromann和Nick Hollon撰写的文章,描述了从令牌流向结构化智能体流的范式演进。现代AI智能体规划任务、委托子智能体、调用工具、暂停等待人工审核 — 经典文本令牌流式传输不足以展示这些工作。LangChain提出在LangGraph中承载消息、工具调用、状态变化、子智能体活动和自定义事件的类型化通道。应用程序只订阅相关类型,使UI对长时间运行的工作负载保持高效。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

OpenAI:Codex企业级扩展 — 400万周活跃用户与Codex Labs计划

编辑插图:Codex企业级扩展 — 400万周活跃用户与Codex Labs计划

OpenAI于2026年5月21日宣布Codex平台的企业级扩展 — 这一智能体编程工具已达到400万周活跃用户。新的Codex Labs计划和与大型咨询公司的合作伙伴关系已宣布,将帮助大型企业实施和扩展Codex。这一消息标志着正式的企业市场推广举措,将Codex定位为GitHub Copilot在中高端市场的直接竞争对手。

🟡 🤝 智能体 2026年5月21日 · 2 分钟阅读

Anthropic:Claude Managed Agents推出MCP Tunnels与自托管沙盒

Editorial illustration: Anthropic MCP Tunnels支持私有网络,Claude Managed Agents自托管沙盒上线

Anthropic于2026年5月19日在Research Preview中发布了MCP Tunnels——允许Claude代理连接至用户私有网络中的Model Context Protocol服务器——以及作为Anthropic基础设施替代方案的自托管沙盒。更新还包括在活跃会话中动态更改MCP配置,以及超过10万Token的工具输出自动溢出到沙盒文件。

🟡 🤝 智能体 2026年5月21日 · 2 分钟阅读

Google DeepMind:Co-Scientist——面向科学研究的多代理AI合作伙伴

Editorial illustration: Google DeepMind Co-Scientist多代理AI系统加速科学研究

Google DeepMind于2026年5月19日发布Co-Scientist——这是一个基于Gemini的多代理AI系统,通过6个专门代理在"创意锦标赛"辩论中生成、讨论并改进科学假设。该系统与100余家研究机构合作开发,已在肝纤维化、ALS、细胞衰老和传染病研究中取得具体成果,将分析时间从数月压缩至数天。

🟡 🤝 智能体 2026年5月21日 · 1 分钟阅读

Google:I/O 2026第二波——Antigravity 2.0、Gemini Spark与Universal Cart

Editorial illustration: Google I/O 2026第二波发布——Antigravity 2.0、Gemini Spark与Universal Cart巩固代理优先战略

Google在I/O 2026大会上发布了第二波重磅AI产品:Antigravity 2.0——以代理为核心的开发平台,配备CLI和SDK;Gemini Spark——持续在设备端后台运行的个人AI代理;Universal Cart——跨Google服务整合的AI购物助手。三款产品紧随Gemini 3.5 Flash和Gemini Omni发布(已在前次报道中覆盖),共同奠定了Google代理优先生态系统战略。

🟡 🤝 智能体 2026年5月21日 · 2 分钟阅读

LangChain:Deep Agents引入QuickJS解释器,可在工具调用之间执行代码

Editorial illustration: LangChain Deep Agents的QuickJS解释器在工具调用之间保持状态,减少Token消耗

LangChain于2026年5月20日在Deep Agents框架中引入解释器——内置QuickJS运行时环境,允许代理在LLM工具调用之间编写和执行代码,无需将状态序列化到消息历史。公司称在某些任务上可节省高达35%的Token消耗,因为状态持久保存在运行时内而非模型上下文中,且默认不允许访问文件系统、网络或Shell,具有明确的可控动作空间。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

Anthropic Claude Code:v2.1.145版本带来实时会话脚本化与安全修复

Editorial illustration:

Claude Code v2.1.145新增JSON格式实时会话列表输出功能,扩展了OTEL追踪属性以跟踪智能体,并修复了Bash命令授权时的安全漏洞。可通过npm install -g @anthropic-ai/claude-code获取更新。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

Anthropic:Claude服务KPMG全球138个国家的276,000名员工

Editorial illustration: Anthropic i KPMG sklopili su stratešku globalnu alijansu kojom Claude dobiva pristup svim zaposlenic

Anthropic与KPMG签署战略全球联盟,Claude将覆盖全球四大会计师事务所之一的全体员工。Claude将集成至KPMG数字网关平台,KPMG同时成为Anthropic在私募股权领域的首选合作伙伴。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

AWS:Amazon Nova Sonic可扩展语音智能体的三种架构模式

Editorial illustration:

AWS发布了使用Amazon Nova Sonic和AgentCore Gateway构建可扩展语音智能体的详细指南。三种架构模式——直接工具、子智能体和会话分段——提供不同的延迟与操作复杂性权衡。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

GitHub Copilot接入Gemini 3.5 Flash:为日常编程带来速度与质量

Editorial illustration: Google-ov Gemini 3.5 Flash model postaje općenito dostupan za sve GitHub Copilot planove. Obećava kv

Google的Gemini 3.5 Flash模型正式面向所有GitHub Copilot计划全面开放。该模型承诺以Flash层级的速度和更低成本提供接近Pro级别的代码质量,并特别强调对智能体工作流和多IDE环境的支持。

🟢 🤝 智能体 2026年5月20日 · 1 分钟阅读

arXiv:2605.18703:EnvFactory——以1/5的环境数量训练工具调用智能体,性能提升15%

Editorial illustration:

EnvFactory是一种自动合成可执行训练环境的新框架,专为工具调用智能体设计。在Qwen3模型上,仅使用85个验证环境即可在BFCLv3上实现+15%、在MCP-Atlas上实现+8.6%的提升——比同类方法少五倍的环境数量。

🟢 🤝 智能体 2026年5月20日 · 1 分钟阅读

arXiv:2605.18565:LongMINT——揭示AI智能体为何「遗忘」所有信息

Editorial illustration:

LongMINT是首个测量AI智能体在长期动态场景中记忆管理能力的基准。包含15,600个问答对,上下文最长达180万个token,被测系统平均准确率仅为27.9%——在大量案例中低于随机猜测。

🟢 🤝 智能体 2026年5月20日 · 2 分钟阅读

arXiv:2605.20173:生产级LLM智能体的6种架构模式

Editorial illustration: Novi arXiv rad uvodi stochastic-deterministic boundary kao temeljni dizajn princip produkcijskih LLM

新发布的arXiv论文引入「随机-确定性边界」作为生产级LLM智能体的核心设计原则,并定义了6种可组合的运行时模式——从分层委派到人机协作——根据三个架构关切进行选择:协调、状态与控制。

🔴 🤝 智能体 2026年5月19日 · 2 分钟阅读

Anthropic: 收购Stainless,将MCP服务器工具与SDK开发直接整合至Claude平台

Editorial illustration: Anthropic于2026年5月18日收购Stainless,该公司成立于2022年,负责构建所有官方Anthropic SDK及MCP服务器工具

Anthropic于2026年5月18日收购了Stainless——这家成立于2022年的公司负责构建所有官方Anthropic SDK及MCP服务器工具。Stainless为数百家企业提供SDK生成服务,此次收购旨在改善Claude智能体与外部数据和工具的集成能力。

🔴 🤝 智能体 2026年5月19日 · 2 分钟阅读

Anthropic:MCP Tunnels、自托管沙盒与工具输出自动文件溢出

Editorial illustration: Anthropic在Claude API平台推出了三项重要代理开发者更新

Anthropic在Claude API平台推出了三项重要更新:MCP Tunnels支持无需暴露互联网即可连接私有网络;自托管沙盒作为Anthropic托管基础设施的替代方案;以及超过100K token的工具输出自动文件溢出功能。

🟡 🤝 智能体 2026年5月19日 · 2 分钟阅读

arXiv:2605.18661:AI自动研究路线图与用户指南

Editorial illustration: arXiv论文2605.18661分析自主生成研究论文的AI系统

来自NUS和NTU的研究人员在arXiv论文2605.18661中分析了仅需15美元即可自主生成研究论文的系统。核心发现:前沿LLM会捏造结果,且无法可靠评估想法的新颖性。全面路线图划定了可靠辅助与不安全AI自主之间的边界。

🟡 🤝 智能体 2026年5月19日 · 2 分钟阅读

arXiv:2605.16233: FORGE——AI智能体无需微调即可构建共享记忆

Editorial illustration: arXiv:2605.16233提出FORGE,LLM智能体通过种群经验广播构建共享记忆,无需修改模型权重

arXiv:2605.16233提出FORGE,一种LLM智能体通过种群广播共享经验来构建共享记忆的方法——无需任何模型权重更新。在CybORG CAGE-2网络防御任务上,性能比零基线提升1.7至7.7倍,较弱模型的提升尤为显著。

🟡 🤝 智能体 2026年5月19日 · 2 分钟阅读

Anthropic Claude Code v2.1.144:/resume支持后台会话与修复75秒挂起问题

Editorial illustration: Anthropic Claude Code CLI v2.1.144后台会话/resume支持与持续时间显示

Anthropic Claude Code CLI v2.1.144引入了/resume对后台会话的支持,显示「Agent completed · 3h 2m 5s」等持续时间;修复了API不可用时的75秒挂起问题;解决了MCP tools/list分页bug导致工具静默丢失的问题;并带来了一系列终端和MCP修复。

🟡 🤝 智能体 2026年5月19日 · 1 分钟阅读

GitHub: Copilot CLI远程控制功能现已在所有平台全面开放

Editorial illustration: GitHub宣布GitHub Copilot CLI远程控制功能全面开放,开发者可通过/remote on命令跨设备管理终端会话

GitHub宣布GitHub Copilot CLI远程控制功能正式全面开放(GA)。通过/remote on命令,开发者可以从移动设备、网页、VS Code或JetBrains IDE监控和管理活跃的终端会话——无需中断工作流程。

🟢 🤝 智能体 2026年5月19日 · 2 分钟阅读

arXiv:2605.18747:代码作为操作底层——AI代理的新范式

Editorial illustration: 41位UIUC和NVIDIA研究人员认为代码是AI代理操作底层而非仅是输出

来自UIUC和NVIDIA的41位研究人员认为,代码不仅仅是LLM的输出,而是代理工具——将推理、行动和验证统一在一个构建可靠AI系统的框架中的操作底层。

🟢 🤝 智能体 2026年5月19日 · 1 分钟阅读

arXiv:2605.16238: LLM引导树搜索系统在疾病流行预测中超越CDC专家模型

Editorial illustration: arXiv:2605.16238提出结合LLM与树搜索算法的自主系统,用于预测流感、COVID-19和RSV等季节性流行病

arXiv:2605.16238提出一个结合LLM与树搜索算法的自主系统,用于预测季节性流行病。在2025-26季节的实时预测中,该系统自主构建了流感、COVID-19和RSV模型,持续达到或超越CDC黄金标准的人工精选集成模型。

🟡 🤝 智能体 2026年5月18日 · 3 分钟阅读

arXiv:2605.16217 Argus:深度研究智能体的证据汇编架构,8路并行搜索器提升12.7个百分点

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文,提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器(ReAct风格轨迹)+导航器(共享证据图+强化学习合成)——单搜索器提升5.5个百分点,8路并行提升12.7个百分点,64路并行在BrowseComp上达到86.2分,且不超出上下文窗口限制。

🟡 🤝 智能体 2026年5月18日 · 2 分钟阅读

GitHub Copilot:Grok Code Fast 1 于2026年5月15日弃用;推荐替代方案为 GPT-5 mini 和 Claude Haiku 4.5

Editorial illustration: deprecated stamp na xAI Grok ikoni s arrows prema GPT-5 mini i Claude Haiku 4.5 logosima.

GitHub 于2026年5月15日正式宣布在所有 Copilot 体验(聊天、内联编辑、问答、代理模式、代码补全)中弃用 Grok Code Fast 1 模型。此次弃用发生在5月8日宣布后的一周。推荐替代方案:GPT-5 mini 和 Claude Haiku 4.5——均可通过标准模型策略获得。企业管理员需通过 Copilot 设置启用替代方案。

🟢 🤝 智能体 2026年5月18日 · 3 分钟阅读

Databricks + Veeva Vault CRM:面向生命科学商业工作流的三款专业AI智能体

Editorial illustration: pharma sales rep s tablet i AI agent overlay s patient data dashboard.

Databricks于2026年5月18日宣布与Veeva Systems深化合作,将Genie AI智能体直接集成到面向生命科学行业的Vault CRM工作流中。三款专业智能体角色——销售代表智能体、医学科学联络员(MSL)智能体和区域经理智能体——通过Unity Catalog治理访问Databricks数据湖仓。此次发布先于2026年5月19日至20日在波士顿举办的Veeva商业峰会。

🟡 🤝 智能体 2026年5月16日 · 2 分钟阅读

Anthropic: Claude Code v2.1.143 — 本周第五个补丁,插件依赖强制执行与市场预测上下文成本

编辑插图:带有token成本图标和依赖关系图的Claude Code插件市场。

Claude Code v2.1.143是Anthropic于2026年5月15日发布的CLI代理新版本,本周第五个补丁。引入插件依赖强制执行与disable-chain提示、市场中的预测上下文成本显示(每轮及每次调用的token估算)、新的worktree.bgIsolation设置、PowerShell -ExecutionPolicy Bypass自动标志,以及在空闲唤醒后保留模型/努力级别的后台会话。

🟡 🤝 智能体 2026年5月16日 · 2 分钟阅读

GitHub: GitHub Accessibility Agent审查3,535个PR,68%解决率,揭示LLM对无障碍反模式的偏向

Editorial illustration: 无障碍图标(屏幕阅读器、键盘)与GitHub PR审查展示。

GitHub Accessibility Agent是2026年5月15日发布的通用无障碍自动化案例研究。该智能体审查了3,535个拉取请求,解决率达68%,并发现了一个重要偏向:LLM由于在数十年不可访问的代码上训练,具有产生无障碍反模式的不良倾向。GitHub使用顺序审查者+实现者架构(双层模型)而非并行子智能体——降低了token消耗并提升了准确性。

🟢 🤝 智能体 2026年5月16日 · 2 分钟阅读

arXiv:2605.14892 调研:LLM多智能体系统的LIFE演进(奠基、整合、发现、演化)

编辑插图:具有LIFE阶段和智能体间连接的多智能体系统。

LIFE演进调研是由Shihao Qi、Jie Ma、Rui Xing、Wei Guo及14位共同作者于2026年5月15日在arXiv发表的多智能体LLM系统综合综述。该调研通过四个因果关联阶段组织该领域——奠基(Lay,个体能力)、整合(Integrate,智能体协作)、发现(Find,故障归因)和演化(Evolve,自主改进)。主要论点:智能体间的错误传播产生的故障很少转化为结构性自我改进。

🟡 🤝 智能体 2026年5月15日 · 2 分钟阅读

Anthropic: Claude Code v2.1.142 — Fast Mode 默认切换至 Opus 4.7,为后台会话新增 --add-dir 与 --mcp-config 标志

编辑插图:带有后台智能体会话与标志列表的 Claude Code 终端界面。

Claude Code v2.1.142 是 Anthropic CLI 智能体的新版本,于 2026 年 5 月 14 日发布。本周第四个补丁,继 v2.1.139、v2.1.140 和 v2.1.141 之后。新增八个用于 claude agents 后台会话的标志(--add-dir、--settings、--mcp-config、--plugin-dir、--permission-mode、--model、--effort、--dangerously-skip-permissions)。Fast Mode 默认模型现已切换至 Opus 4.7(原为 Opus 4.6)。修复 MCP 工具超时、git worktree 识别、macOS 睡眠守护进程及 Windows 网络驱动器死锁问题。

🟡 🤝 智能体 2026年5月15日 · 2 分钟阅读

GitHub: Copilot App技术预览版——具有独立会话和Agent Merge功能的原生桌面代理

编辑插图:桌面应用,附git分支图形和Agent Merge流程。

GitHub Copilot App是于2026年5月14日发布的技术预览版全新独立GitHub原生桌面应用程序。与IDE插件不同,它为每个任务提供独立会话——每个会话拥有自己的分支、文件、对话状态和任务状态。Agent Merge功能自主处理审查评论、修复失败检查并在满足条件后合并。Copilot Pro/Pro+用户可通过早期访问使用,Business/Enterprise用户将通过逐步推出获得访问权限。

🟢 🤝 智能体 2026年5月15日 · 2 分钟阅读

OpenAI: Codex随处可用——编程代理移动端和Web端推出,支持实时监控和引导控制

编辑插图:智能手机,附Codex CLI图标和远程开发流。

OpenAI Codex随处可用是于2026年5月14日宣布的编程代理移动端和Web端新推出阶段。开发者可通过智能手机和平板电脑上的ChatGPT移动应用实时监控、引导和审批编程任务。该方式将Codex从Windows沙盒(5月13日)和Codex CLI部署扩展至异构计算环境,完成OpenAI跨平台战略。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Amazon Nova Sonic + WebRTC:实时语音智能体通过Kinesis Video Streams与异步工具调用支持RAG/MCP

编辑插图:语音智能体及WebRTC流和指向云系统的工具调用箭头。

Amazon Nova Sonic + WebRTC集成是AWS于2026年5月13日发布的实时语音智能体应用新架构。语音转语音事件处理器通过Kinesis Video Streams WebRTC信令编排媒体和文本数据事件,同时服务端VAD减少音频令牌消耗。Nova Sonic支持向MCP服务器、Strands智能体和RAG系统的异步工具调用——物联网和网联汽车场景为首批演示案例。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Anthropic: Claude Code v2.1.141 新增 terminalSequence Hook、Bedrock Haiku 修复及「摘要至此」回溯选项

编辑插图:带有新 Hook 图标和回溯控件的 Claude Code 终端。

Claude Code v2.1.141 是 Anthropic CLI 智能体的新版本,于2026年5月13日发布。本周第三个补丁版本新增了 terminalSequence 字段用于 Hook JSON 输出、CLAUDE_CODE_PLUGIN_PREFER_HTTPS 和 ANTHROPIC_WORKSPACE_ID 环境变量、claude agents --cwd 路径作用域,以及新的「摘要至此」回溯菜单选项用于压缩早期上下文。同时修复了 Bedrock/Vertex Haiku 模型 ID 竞争条件及 Windows 守护进程状态问题。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

LangChain: Managed Deep Agents——LangSmith中具备持久执行与记忆层的托管运行时

编辑插图:云环境中带有记忆和工具层的托管智能体运行时。

Managed Deep Agents是LangChain于2026年5月13日在LangSmith平台私有测试版中发布的新托管智能体运行时。该服务提供持久执行、持久记忆、集成工具链和全面可观测性——生产深度智能体所需的全部基础设施组件。智能体定义通过标准的AGENTS.md和tools.json文件保留在代码仓库中。

🟡 🤝 智能体 2026年5月14日 · 1 分钟阅读

OpenAI: Codex Windows沙盒为自主智能体引入受控文件系统访问与网络限制

编辑插图:Codex终端及围绕文件系统和网络访问的安全层。

Codex Windows沙盒是OpenAI于2026年5月13日发布的全新安全架构,使Codex智能体能够在Windows操作系统上安全运行。沙盒引入受控文件系统访问和网络限制,以实现安全高效的编码智能体——Codex由此成为跨平台工具,不再局限于macOS/Linux开发者。

🟡 🤝 智能体 2026年5月13日 · 1 分钟阅读

Anthropic: Claude Code v2.1.140 修复 /goal 挂起、热重载与 Read 偏移量验证

编辑插图:开发工具界面,包含代码行与终端提示符符号。

Claude Code v2.1.140 是 Anthropic CLI 智能体的新版本,于 2026 年 5 月 12 日发布,修复了十个缺陷,包括:当 disableAllHooks 设置启用时 /goal 命令静默挂起、热重载中符号链接 settings 文件的回归问题、企业端点安全启动问题,以及 Read 工具中 offset 参数的验证。子智能体类型匹配现在接受不区分大小写的值。

🟡 🤝 智能体 2026年5月13日 · 1 分钟阅读

arXiv:2605.12061 SAGE: 自进化图记忆引擎在 Natural Questions 上达到 91.6% Recall@5

编辑插图:带有节点与反馈箭头的动态图记忆结构示意图。

SAGE 是由王俊通等人于 2026 年 5 月 12 日在 arXiv 发表的面向 LLM 智能体的自进化图记忆引擎。该引擎采用记忆写入器与记忆读取器(图基础模型)构成的反馈循环,可自主扩展与重组。在 Natural Questions 的零样本开放域检索中,Recall@2/5 分别达到 82.5/91.6,并在 LongMemEval 与 HaluMem 幻觉指标上均有提升。

🟡 🤝 智能体 2026年5月13日 · 2 分钟阅读

Google DeepMind: AI Pointer 让 Gemini 在 Chrome 和 Googlebook 中响应鼠标指令

编辑插图:带有光晕光线的鼠标光标集成到浏览器界面中。

AI Pointer 是 Google DeepMind 于 2026 年 5 月 12 日发布的实验性产品,将 Gemini 模型集成到上下文感知的鼠标指针中。用户只需指向目标并说出简短指令,如「Fix this」或「Compare these」,无需将内容复制到单独的应用中。该功能已在 Chrome 中立即可用,Magic Pointer 将随新款 Googlebook 笔记本电脑推出。

🟡 🤝 智能体 2026年5月13日 · 2 分钟阅读

NVIDIA: OpenShell 与 SAP Joule Studio 为自主 AI 智能体引入企业级治理

编辑插图:带有策略执行符号的企业数据流防护层。

NVIDIA OpenShell 与 SAP Joule Studio 集成是一个新的企业智能体平台,于 2026 年 5 月 12 日 SAP Sapphire 大会上发布。NVIDIA OpenShell 提供隔离运行时与策略执行,SAP Business AI Platform 将其作为安全层集成,Joule Studio 则提供智能体构建环境。NemoClaw 参考蓝图已在 Joule Studio 中立即可用。

🟢 🤝 智能体 2026年5月13日 · 2 分钟阅读

arXiv:2605.11814 MedMemoryBench 揭示医疗智能体中的记忆饱和现象——2000 个会话,16000 轮对话

编辑插图:带有记忆记录与流式评估指示器的医疗智能体示意图。

MedMemoryBench 是首个针对个性化医疗 AI 智能体记忆机制的基准测试,由浙江大学团队于 2026 年 5 月 12 日在 arXiv 发布。通过人机协同流程构建了约 2000 个会话与 16000 个交互轮次。核心发现:主流 AI 架构在医疗推理场景下表现出记忆饱和现象,持续信息涌入会导致性能下降。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

arXiv:2605.10344: TMAS——多智能体测试时扩展在推理基准测试中创下新纪录

编辑插图:多个AI智能体节点以协作网络连接,具有层次化内存库,发光的推理路径。

TMAS(测试时多智能体扩展)是一种新的测试时计算扩展方法,将LLM推理组织为具有层次化内存库的专业化智能体之间的协作。作者(加州大学伯克利分校+DeepMind)展示了在相同计算预算下,在MATH-500、AIME 2024、HumanEval和GPQA Diamond上超越所有现有基线方法(Best-of-N、MCTS、AutoTTS)的结果。该方法在单一流水线中结合了推理+检索+验证。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

AWS: Strands Agents SDK与Exa集成,让智能体无需自定义爬虫即可自主进行网络搜索

编辑插图:开源SDK智能体连接到AI原生搜索引擎,抽象数据流表示自主网络查询。

AWS Strands Agents SDK是一个用于构建自主AI智能体的开源框架,已与Exa深度集成。Exa是一款在语义层面索引网络的AI原生搜索引擎。智能体现在可以自主决定何时搜索网络、综合多个来源的报告并引用数据——无需构建自定义爬虫或抓取基础设施。该集成将启用网络搜索的智能体开发简化至十几行代码。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

Microsoft Research:SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益

Editorial illustration: SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益

SocialReasoning-Bench 是微软研究院新发布的基准测试,衡量 AI 智能体在与其他方谈判时是否真正维护用户利益——而不仅仅是完成任务。结果显示模型几乎能完美达成交易,但在市场场景中始终将价值留给对方,90%+ 的结果被归类为低效或疏忽。

🟢 🤝 智能体 2026年5月12日 · 1 分钟阅读

arXiv:2605.07313:智能体记忆无法扩展——HippoRAG 随无关会话增多损失 16-20 个百分点可靠性

Editorial illustration: 2605.07313: 智能体记忆无法扩展——HippoRAG 随无关会话增多损失 16-20 个百分点可靠性

论文 arXiv:2605.07313 提出了规模条件评估协议,测试智能体记忆系统在无关数据积累时是否仍能正常运作。HippoRAG 损失 16-20 个百分点的预算合规可靠性,LiCoMemory 随模型大小而变化。作者(Shao、Lu、Zhang、Luo)得出结论:可靠性损失并非个别现象。

查看完整档案 →