🤝 智能体

145 条新闻

🔴 🤝 智能体 2026年5月23日 · 3 分钟阅读

arXiv:2605.22502：将智能体工作流编译进LLM权重，以百分之一的成本实现接近前沿的质量

研究人员证明，复杂的智能体工作流可以直接编码到微调后的小型模型权重中，而非外部编排框架（如LangChain或LangGraph）。该方法在旅行预订、Zoom支持和保险等三个真实场景（14至55个节点的工作流）中实现了接近前沿的质量，推理成本降低100倍。

🔴 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22794：MOSS展示通过修改自身源代码进行自我改进的智能体

研究人员提出了MOSS，一个通过重写自身源代码来改进的自主智能体框架——而不仅仅是提示词或微调权重。在OpenClaw基准测试中，一轮MOSS自我进化将分数从0.25提升至0.61，无需任何人工干预，证明智能体可以修复仅靠纯文本方法无法触及的路由、钩子和调度逻辑。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22535：TerminalWorld基准测试在真实Linux终端任务中评估LLM智能体，无需模拟环境

TerminalWorld是一项新基准测试，在真实Linux进程中对LLM智能体进行bash、git和文件操作的评估，无需任何模拟环境。由Zhaoyang Chu和Jiarui Hu领衔的八位作者为「计算机使用」智能体设立了新标杆，与Claude Code、GitHub Copilot Workspace和Cursor智能体模式等工具直接相关。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.149带来/usage分类明细并修复PowerShell权限绕过

Anthropic发布了Claude Code CLI v2.1.149，将/usage命令扩展为按类别显示成本明细（skills、subagents、plugins、每个MCP服务器）。该版本修复了两个安全漏洞：PowerShell内置函数导致的权限绕过和git worktree沙箱的错误allowlist。还新增了企业设置allowAllClaudeAiMcps，方便连接云端MCP连接器。

🔴 🤝 智能体 2026年5月22日 · 2 分钟阅读

Microsoft Research：MagenticLite + Fara1.5（4B/9B/27B）— 专为小型模型优化的智能体AI达到SOTA

编辑插图：MagenticLite + Fara1.5（4B/9B/27B）— 专为小型模型优化的智能体AI达到SOTA

Microsoft Research于2026年5月21日发布了针对小型模型智能体AI的三件套：MagenticLite（浏览器和文件系统UI应用程序）、MagenticBrain（从Qwen 3 14B微调的14B编排模型）和Fara1.5（4B、9B、27B三种规格的计算机使用模型）。Fara1.5-27B在Online-Mind2Web基准测试（300项网络任务）中达到SOTA 90%以上，几乎是前代Fara-7B性能的两倍。目标是证明智能体AI不需要巨型模型 — 只需设计良好的协同工具和执行框架。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

AWS：Nova Act 获得HIPAA合规资格 — 面向医疗工作流的ePHI智能体自动化

编辑插图：Nova Act 获得HIPAA合规资格 — 面向医疗工作流的ePHI智能体自动化

AWS于2026年5月21日宣布Amazon Nova Act——用于浏览器和UI工作流自动化的智能体AI服务——已获得正式HIPAA合规资格。医疗机构现在可以使用Nova Act处理受保护的健康信息（ePHI），包括通过供应商网络门户自动完成预授权、保险核查和转诊发送。该服务与Amazon Bedrock AgentCore及Strand Agents框架集成，需要签署BAA协议和AWS KMS加密，目前仅在美东（北弗吉尼亚）地区提供。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

Anthropic：Claude Code v2.1.147 引入Workflow工具实现确定性多智能体编排

编辑插图：Claude Code v2.1.147 引入Workflow工具实现确定性多智能体编排

Anthropic于2026年5月21日20:39 UTC发布Claude Code v2.1.147，引入了Workflow工具 — Claude Code生态系统中首个确定性多智能体编排机制。该工具初始默认禁用，通过环境变量CLAUDE_CODE_WORKFLOWS=1激活。同一版本将现有/simplify命令重命名为/code-review（支持高/中/低三个努力级别），并新增针对原型污染和基于thenable的逃逸攻击的沙箱加固。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

LangChain：从令牌流到智能体流 — 类型化通道取代多智能体UI的经典流式传输

LangChain于2026年5月21日发布了Christian Bromann和Nick Hollon撰写的文章，描述了从令牌流向结构化智能体流的范式演进。现代AI智能体规划任务、委托子智能体、调用工具、暂停等待人工审核 — 经典文本令牌流式传输不足以展示这些工作。LangChain提出在LangGraph中承载消息、工具调用、状态变化、子智能体活动和自定义事件的类型化通道。应用程序只订阅相关类型，使UI对长时间运行的工作负载保持高效。

🟡 🤝 智能体 2026年5月22日 · 2 分钟阅读

OpenAI：Codex企业级扩展 — 400万周活跃用户与Codex Labs计划

编辑插图：Codex企业级扩展 — 400万周活跃用户与Codex Labs计划

OpenAI于2026年5月21日宣布Codex平台的企业级扩展 — 这一智能体编程工具已达到400万周活跃用户。新的Codex Labs计划和与大型咨询公司的合作伙伴关系已宣布，将帮助大型企业实施和扩展Codex。这一消息标志着正式的企业市场推广举措，将Codex定位为GitHub Copilot在中高端市场的直接竞争对手。

🟡 🤝 智能体 2026年5月21日 · 2 分钟阅读

Anthropic：Claude Managed Agents推出MCP Tunnels与自托管沙盒

Editorial illustration: Anthropic MCP Tunnels支持私有网络，Claude Managed Agents自托管沙盒上线

Anthropic于2026年5月19日在Research Preview中发布了MCP Tunnels——允许Claude代理连接至用户私有网络中的Model Context Protocol服务器——以及作为Anthropic基础设施替代方案的自托管沙盒。更新还包括在活跃会话中动态更改MCP配置，以及超过10万Token的工具输出自动溢出到沙盒文件。

🟡 🤝 智能体 2026年5月21日 · 2 分钟阅读

Google DeepMind：Co-Scientist——面向科学研究的多代理AI合作伙伴

Editorial illustration: Google DeepMind Co-Scientist多代理AI系统加速科学研究

Google DeepMind于2026年5月19日发布Co-Scientist——这是一个基于Gemini的多代理AI系统，通过6个专门代理在"创意锦标赛"辩论中生成、讨论并改进科学假设。该系统与100余家研究机构合作开发，已在肝纤维化、ALS、细胞衰老和传染病研究中取得具体成果，将分析时间从数月压缩至数天。

🟡 🤝 智能体 2026年5月21日 · 1 分钟阅读

Google：I/O 2026第二波——Antigravity 2.0、Gemini Spark与Universal Cart

Editorial illustration: Google I/O 2026第二波发布——Antigravity 2.0、Gemini Spark与Universal Cart巩固代理优先战略

Google在I/O 2026大会上发布了第二波重磅AI产品：Antigravity 2.0——以代理为核心的开发平台，配备CLI和SDK；Gemini Spark——持续在设备端后台运行的个人AI代理；Universal Cart——跨Google服务整合的AI购物助手。三款产品紧随Gemini 3.5 Flash和Gemini Omni发布（已在前次报道中覆盖），共同奠定了Google代理优先生态系统战略。

🟡 🤝 智能体 2026年5月21日 · 2 分钟阅读

LangChain：Deep Agents引入QuickJS解释器，可在工具调用之间执行代码

Editorial illustration: LangChain Deep Agents的QuickJS解释器在工具调用之间保持状态，减少Token消耗

LangChain于2026年5月20日在Deep Agents框架中引入解释器——内置QuickJS运行时环境，允许代理在LLM工具调用之间编写和执行代码，无需将状态序列化到消息历史。公司称在某些任务上可节省高达35%的Token消耗，因为状态持久保存在运行时内而非模型上下文中，且默认不允许访问文件系统、网络或Shell，具有明确的可控动作空间。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

Anthropic Claude Code：v2.1.145版本带来实时会话脚本化与安全修复

Claude Code v2.1.145新增JSON格式实时会话列表输出功能，扩展了OTEL追踪属性以跟踪智能体，并修复了Bash命令授权时的安全漏洞。可通过npm install -g @anthropic-ai/claude-code获取更新。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

Anthropic：Claude服务KPMG全球138个国家的276,000名员工

Editorial illustration: Anthropic i KPMG sklopili su stratešku globalnu alijansu kojom Claude dobiva pristup svim zaposlenic

Anthropic与KPMG签署战略全球联盟，Claude将覆盖全球四大会计师事务所之一的全体员工。Claude将集成至KPMG数字网关平台，KPMG同时成为Anthropic在私募股权领域的首选合作伙伴。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

AWS：Amazon Nova Sonic可扩展语音智能体的三种架构模式

AWS发布了使用Amazon Nova Sonic和AgentCore Gateway构建可扩展语音智能体的详细指南。三种架构模式——直接工具、子智能体和会话分段——提供不同的延迟与操作复杂性权衡。

🟡 🤝 智能体 2026年5月20日 · 2 分钟阅读

GitHub Copilot接入Gemini 3.5 Flash：为日常编程带来速度与质量

Editorial illustration: Google-ov Gemini 3.5 Flash model postaje općenito dostupan za sve GitHub Copilot planove. Obećava kv

Google的Gemini 3.5 Flash模型正式面向所有GitHub Copilot计划全面开放。该模型承诺以Flash层级的速度和更低成本提供接近Pro级别的代码质量，并特别强调对智能体工作流和多IDE环境的支持。

🟢 🤝 智能体 2026年5月20日 · 1 分钟阅读

arXiv:2605.18703：EnvFactory——以1/5的环境数量训练工具调用智能体，性能提升15%

EnvFactory是一种自动合成可执行训练环境的新框架，专为工具调用智能体设计。在Qwen3模型上，仅使用85个验证环境即可在BFCLv3上实现+15%、在MCP-Atlas上实现+8.6%的提升——比同类方法少五倍的环境数量。

🟢 🤝 智能体 2026年5月20日 · 1 分钟阅读

arXiv:2605.18565：LongMINT——揭示AI智能体为何「遗忘」所有信息

LongMINT是首个测量AI智能体在长期动态场景中记忆管理能力的基准。包含15,600个问答对，上下文最长达180万个token，被测系统平均准确率仅为27.9%——在大量案例中低于随机猜测。

🟢 🤝 智能体 2026年5月20日 · 2 分钟阅读

arXiv:2605.20173：生产级LLM智能体的6种架构模式

Editorial illustration: Novi arXiv rad uvodi stochastic-deterministic boundary kao temeljni dizajn princip produkcijskih LLM

新发布的arXiv论文引入「随机-确定性边界」作为生产级LLM智能体的核心设计原则，并定义了6种可组合的运行时模式——从分层委派到人机协作——根据三个架构关切进行选择：协调、状态与控制。

🔴 🤝 智能体 2026年5月19日 · 2 分钟阅读

Anthropic: 收购Stainless，将MCP服务器工具与SDK开发直接整合至Claude平台

Editorial illustration: Anthropic于2026年5月18日收购Stainless，该公司成立于2022年，负责构建所有官方Anthropic SDK及MCP服务器工具

Anthropic于2026年5月18日收购了Stainless——这家成立于2022年的公司负责构建所有官方Anthropic SDK及MCP服务器工具。Stainless为数百家企业提供SDK生成服务，此次收购旨在改善Claude智能体与外部数据和工具的集成能力。

🔴 🤝 智能体 2026年5月19日 · 2 分钟阅读

Anthropic：MCP Tunnels、自托管沙盒与工具输出自动文件溢出

Editorial illustration: Anthropic在Claude API平台推出了三项重要代理开发者更新

Anthropic在Claude API平台推出了三项重要更新：MCP Tunnels支持无需暴露互联网即可连接私有网络；自托管沙盒作为Anthropic托管基础设施的替代方案；以及超过100K token的工具输出自动文件溢出功能。

🟡 🤝 智能体 2026年5月19日 · 2 分钟阅读

arXiv:2605.18661：AI自动研究路线图与用户指南

Editorial illustration: arXiv论文2605.18661分析自主生成研究论文的AI系统

来自NUS和NTU的研究人员在arXiv论文2605.18661中分析了仅需15美元即可自主生成研究论文的系统。核心发现：前沿LLM会捏造结果，且无法可靠评估想法的新颖性。全面路线图划定了可靠辅助与不安全AI自主之间的边界。

🟡 🤝 智能体 2026年5月19日 · 2 分钟阅读

arXiv:2605.16233: FORGE——AI智能体无需微调即可构建共享记忆

Editorial illustration: arXiv:2605.16233提出FORGE，LLM智能体通过种群经验广播构建共享记忆，无需修改模型权重

arXiv:2605.16233提出FORGE，一种LLM智能体通过种群广播共享经验来构建共享记忆的方法——无需任何模型权重更新。在CybORG CAGE-2网络防御任务上，性能比零基线提升1.7至7.7倍，较弱模型的提升尤为显著。

🟡 🤝 智能体 2026年5月19日 · 2 分钟阅读

Anthropic Claude Code v2.1.144：/resume支持后台会话与修复75秒挂起问题

Editorial illustration: Anthropic Claude Code CLI v2.1.144后台会话/resume支持与持续时间显示

Anthropic Claude Code CLI v2.1.144引入了/resume对后台会话的支持，显示「Agent completed · 3h 2m 5s」等持续时间；修复了API不可用时的75秒挂起问题；解决了MCP tools/list分页bug导致工具静默丢失的问题；并带来了一系列终端和MCP修复。

🟡 🤝 智能体 2026年5月19日 · 1 分钟阅读

GitHub: Copilot CLI远程控制功能现已在所有平台全面开放

Editorial illustration: GitHub宣布GitHub Copilot CLI远程控制功能全面开放，开发者可通过/remote on命令跨设备管理终端会话

GitHub宣布GitHub Copilot CLI远程控制功能正式全面开放（GA）。通过/remote on命令，开发者可以从移动设备、网页、VS Code或JetBrains IDE监控和管理活跃的终端会话——无需中断工作流程。

🟢 🤝 智能体 2026年5月19日 · 2 分钟阅读

arXiv:2605.18747：代码作为操作底层——AI代理的新范式

Editorial illustration: 41位UIUC和NVIDIA研究人员认为代码是AI代理操作底层而非仅是输出

来自UIUC和NVIDIA的41位研究人员认为，代码不仅仅是LLM的输出，而是代理工具——将推理、行动和验证统一在一个构建可靠AI系统的框架中的操作底层。

🟢 🤝 智能体 2026年5月19日 · 1 分钟阅读

arXiv:2605.16238: LLM引导树搜索系统在疾病流行预测中超越CDC专家模型

Editorial illustration: arXiv:2605.16238提出结合LLM与树搜索算法的自主系统，用于预测流感、COVID-19和RSV等季节性流行病

arXiv:2605.16238提出一个结合LLM与树搜索算法的自主系统，用于预测季节性流行病。在2025-26季节的实时预测中，该系统自主构建了流感、COVID-19和RSV模型，持续达到或超越CDC黄金标准的人工精选集成模型。

🟡 🤝 智能体 2026年5月18日 · 3 分钟阅读

arXiv:2605.16217 Argus：深度研究智能体的证据汇编架构，8路并行搜索器提升12.7个百分点

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文，提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器（ReAct风格轨迹）+导航器（共享证据图+强化学习合成）——单搜索器提升5.5个百分点，8路并行提升12.7个百分点，64路并行在BrowseComp上达到86.2分，且不超出上下文窗口限制。

🟡 🤝 智能体 2026年5月18日 · 2 分钟阅读

GitHub Copilot：Grok Code Fast 1 于2026年5月15日弃用；推荐替代方案为 GPT-5 mini 和 Claude Haiku 4.5

Editorial illustration: deprecated stamp na xAI Grok ikoni s arrows prema GPT-5 mini i Claude Haiku 4.5 logosima.

GitHub 于2026年5月15日正式宣布在所有 Copilot 体验（聊天、内联编辑、问答、代理模式、代码补全）中弃用 Grok Code Fast 1 模型。此次弃用发生在5月8日宣布后的一周。推荐替代方案：GPT-5 mini 和 Claude Haiku 4.5——均可通过标准模型策略获得。企业管理员需通过 Copilot 设置启用替代方案。

🟢 🤝 智能体 2026年5月18日 · 3 分钟阅读

Databricks + Veeva Vault CRM：面向生命科学商业工作流的三款专业AI智能体

Editorial illustration: pharma sales rep s tablet i AI agent overlay s patient data dashboard.

Databricks于2026年5月18日宣布与Veeva Systems深化合作，将Genie AI智能体直接集成到面向生命科学行业的Vault CRM工作流中。三款专业智能体角色——销售代表智能体、医学科学联络员（MSL）智能体和区域经理智能体——通过Unity Catalog治理访问Databricks数据湖仓。此次发布先于2026年5月19日至20日在波士顿举办的Veeva商业峰会。

🟡 🤝 智能体 2026年5月16日 · 2 分钟阅读

Anthropic: Claude Code v2.1.143 — 本周第五个补丁，插件依赖强制执行与市场预测上下文成本

Claude Code v2.1.143是Anthropic于2026年5月15日发布的CLI代理新版本，本周第五个补丁。引入插件依赖强制执行与disable-chain提示、市场中的预测上下文成本显示（每轮及每次调用的token估算）、新的worktree.bgIsolation设置、PowerShell -ExecutionPolicy Bypass自动标志，以及在空闲唤醒后保留模型/努力级别的后台会话。

🟡 🤝 智能体 2026年5月16日 · 2 分钟阅读

GitHub: GitHub Accessibility Agent审查3,535个PR，68%解决率，揭示LLM对无障碍反模式的偏向

Editorial illustration: 无障碍图标（屏幕阅读器、键盘）与GitHub PR审查展示。

GitHub Accessibility Agent是2026年5月15日发布的通用无障碍自动化案例研究。该智能体审查了3,535个拉取请求，解决率达68%，并发现了一个重要偏向：LLM由于在数十年不可访问的代码上训练，具有产生无障碍反模式的不良倾向。GitHub使用顺序审查者+实现者架构（双层模型）而非并行子智能体——降低了token消耗并提升了准确性。

🟢 🤝 智能体 2026年5月16日 · 2 分钟阅读

arXiv:2605.14892 调研：LLM多智能体系统的LIFE演进（奠基、整合、发现、演化）

LIFE演进调研是由Shihao Qi、Jie Ma、Rui Xing、Wei Guo及14位共同作者于2026年5月15日在arXiv发表的多智能体LLM系统综合综述。该调研通过四个因果关联阶段组织该领域——奠基（Lay，个体能力）、整合（Integrate，智能体协作）、发现（Find，故障归因）和演化（Evolve，自主改进）。主要论点：智能体间的错误传播产生的故障很少转化为结构性自我改进。

🟡 🤝 智能体 2026年5月15日 · 2 分钟阅读

Anthropic: Claude Code v2.1.142 — Fast Mode 默认切换至 Opus 4.7，为后台会话新增 --add-dir 与 --mcp-config 标志

Claude Code v2.1.142 是 Anthropic CLI 智能体的新版本，于 2026 年 5 月 14 日发布。本周第四个补丁，继 v2.1.139、v2.1.140 和 v2.1.141 之后。新增八个用于 claude agents 后台会话的标志（--add-dir、--settings、--mcp-config、--plugin-dir、--permission-mode、--model、--effort、--dangerously-skip-permissions）。Fast Mode 默认模型现已切换至 Opus 4.7（原为 Opus 4.6）。修复 MCP 工具超时、git worktree 识别、macOS 睡眠守护进程及 Windows 网络驱动器死锁问题。

🟡 🤝 智能体 2026年5月15日 · 2 分钟阅读

GitHub: Copilot App技术预览版——具有独立会话和Agent Merge功能的原生桌面代理

GitHub Copilot App是于2026年5月14日发布的技术预览版全新独立GitHub原生桌面应用程序。与IDE插件不同，它为每个任务提供独立会话——每个会话拥有自己的分支、文件、对话状态和任务状态。Agent Merge功能自主处理审查评论、修复失败检查并在满足条件后合并。Copilot Pro/Pro+用户可通过早期访问使用，Business/Enterprise用户将通过逐步推出获得访问权限。

🟢 🤝 智能体 2026年5月15日 · 2 分钟阅读

OpenAI: Codex随处可用——编程代理移动端和Web端推出，支持实时监控和引导控制

OpenAI Codex随处可用是于2026年5月14日宣布的编程代理移动端和Web端新推出阶段。开发者可通过智能手机和平板电脑上的ChatGPT移动应用实时监控、引导和审批编程任务。该方式将Codex从Windows沙盒（5月13日）和Codex CLI部署扩展至异构计算环境，完成OpenAI跨平台战略。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Amazon Nova Sonic + WebRTC：实时语音智能体通过Kinesis Video Streams与异步工具调用支持RAG/MCP

Amazon Nova Sonic + WebRTC集成是AWS于2026年5月13日发布的实时语音智能体应用新架构。语音转语音事件处理器通过Kinesis Video Streams WebRTC信令编排媒体和文本数据事件，同时服务端VAD减少音频令牌消耗。Nova Sonic支持向MCP服务器、Strands智能体和RAG系统的异步工具调用——物联网和网联汽车场景为首批演示案例。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Anthropic: Claude Code v2.1.141 新增 terminalSequence Hook、Bedrock Haiku 修复及「摘要至此」回溯选项

Claude Code v2.1.141 是 Anthropic CLI 智能体的新版本，于2026年5月13日发布。本周第三个补丁版本新增了 terminalSequence 字段用于 Hook JSON 输出、CLAUDE_CODE_PLUGIN_PREFER_HTTPS 和 ANTHROPIC_WORKSPACE_ID 环境变量、claude agents --cwd 路径作用域，以及新的「摘要至此」回溯菜单选项用于压缩早期上下文。同时修复了 Bedrock/Vertex Haiku 模型 ID 竞争条件及 Windows 守护进程状态问题。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

LangChain: Managed Deep Agents——LangSmith中具备持久执行与记忆层的托管运行时

Managed Deep Agents是LangChain于2026年5月13日在LangSmith平台私有测试版中发布的新托管智能体运行时。该服务提供持久执行、持久记忆、集成工具链和全面可观测性——生产深度智能体所需的全部基础设施组件。智能体定义通过标准的AGENTS.md和tools.json文件保留在代码仓库中。

🟡 🤝 智能体 2026年5月14日 · 1 分钟阅读

OpenAI: Codex Windows沙盒为自主智能体引入受控文件系统访问与网络限制

Codex Windows沙盒是OpenAI于2026年5月13日发布的全新安全架构，使Codex智能体能够在Windows操作系统上安全运行。沙盒引入受控文件系统访问和网络限制，以实现安全高效的编码智能体——Codex由此成为跨平台工具，不再局限于macOS/Linux开发者。

🟡 🤝 智能体 2026年5月13日 · 1 分钟阅读

Anthropic: Claude Code v2.1.140 修复 /goal 挂起、热重载与 Read 偏移量验证

Claude Code v2.1.140 是 Anthropic CLI 智能体的新版本，于 2026 年 5 月 12 日发布，修复了十个缺陷，包括：当 disableAllHooks 设置启用时 /goal 命令静默挂起、热重载中符号链接 settings 文件的回归问题、企业端点安全启动问题，以及 Read 工具中 offset 参数的验证。子智能体类型匹配现在接受不区分大小写的值。

🟡 🤝 智能体 2026年5月13日 · 1 分钟阅读

arXiv:2605.12061 SAGE: 自进化图记忆引擎在 Natural Questions 上达到 91.6% Recall@5

SAGE 是由王俊通等人于 2026 年 5 月 12 日在 arXiv 发表的面向 LLM 智能体的自进化图记忆引擎。该引擎采用记忆写入器与记忆读取器（图基础模型）构成的反馈循环，可自主扩展与重组。在 Natural Questions 的零样本开放域检索中，Recall@2/5 分别达到 82.5/91.6，并在 LongMemEval 与 HaluMem 幻觉指标上均有提升。

🟡 🤝 智能体 2026年5月13日 · 2 分钟阅读

Google DeepMind: AI Pointer 让 Gemini 在 Chrome 和 Googlebook 中响应鼠标指令

AI Pointer 是 Google DeepMind 于 2026 年 5 月 12 日发布的实验性产品，将 Gemini 模型集成到上下文感知的鼠标指针中。用户只需指向目标并说出简短指令，如「Fix this」或「Compare these」，无需将内容复制到单独的应用中。该功能已在 Chrome 中立即可用，Magic Pointer 将随新款 Googlebook 笔记本电脑推出。

🟡 🤝 智能体 2026年5月13日 · 2 分钟阅读

NVIDIA: OpenShell 与 SAP Joule Studio 为自主 AI 智能体引入企业级治理

NVIDIA OpenShell 与 SAP Joule Studio 集成是一个新的企业智能体平台，于 2026 年 5 月 12 日 SAP Sapphire 大会上发布。NVIDIA OpenShell 提供隔离运行时与策略执行，SAP Business AI Platform 将其作为安全层集成，Joule Studio 则提供智能体构建环境。NemoClaw 参考蓝图已在 Joule Studio 中立即可用。

🟢 🤝 智能体 2026年5月13日 · 2 分钟阅读

arXiv:2605.11814 MedMemoryBench 揭示医疗智能体中的记忆饱和现象——2000 个会话，16000 轮对话

MedMemoryBench 是首个针对个性化医疗 AI 智能体记忆机制的基准测试，由浙江大学团队于 2026 年 5 月 12 日在 arXiv 发布。通过人机协同流程构建了约 2000 个会话与 16000 个交互轮次。核心发现：主流 AI 架构在医疗推理场景下表现出记忆饱和现象，持续信息涌入会导致性能下降。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

arXiv:2605.10344: TMAS——多智能体测试时扩展在推理基准测试中创下新纪录

TMAS（测试时多智能体扩展）是一种新的测试时计算扩展方法，将LLM推理组织为具有层次化内存库的专业化智能体之间的协作。作者（加州大学伯克利分校+DeepMind）展示了在相同计算预算下，在MATH-500、AIME 2024、HumanEval和GPQA Diamond上超越所有现有基线方法（Best-of-N、MCTS、AutoTTS）的结果。该方法在单一流水线中结合了推理+检索+验证。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

AWS: Strands Agents SDK与Exa集成，让智能体无需自定义爬虫即可自主进行网络搜索

AWS Strands Agents SDK是一个用于构建自主AI智能体的开源框架，已与Exa深度集成。Exa是一款在语义层面索引网络的AI原生搜索引擎。智能体现在可以自主决定何时搜索网络、综合多个来源的报告并引用数据——无需构建自定义爬虫或抓取基础设施。该集成将启用网络搜索的智能体开发简化至十几行代码。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

Microsoft Research：SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益

Editorial illustration: SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益

SocialReasoning-Bench 是微软研究院新发布的基准测试，衡量 AI 智能体在与其他方谈判时是否真正维护用户利益——而不仅仅是完成任务。结果显示模型几乎能完美达成交易，但在市场场景中始终将价值留给对方，90%+ 的结果被归类为低效或疏忽。

🟢 🤝 智能体 2026年5月12日 · 1 分钟阅读

arXiv:2605.07313：智能体记忆无法扩展——HippoRAG 随无关会话增多损失 16-20 个百分点可靠性

Editorial illustration: 2605.07313: 智能体记忆无法扩展——HippoRAG 随无关会话增多损失 16-20 个百分点可靠性

论文 arXiv:2605.07313 提出了规模条件评估协议，测试智能体记忆系统在无关数据积累时是否仍能正常运作。HippoRAG 损失 16-20 个百分点的预算合规可靠性，LiCoMemory 随模型大小而变化。作者（Shao、Lu、Zhang、Luo）得出结论：可靠性损失并非个别现象。

查看完整档案 →