arXiv:2605.22502:将智能体工作流编译进LLM权重,以百分之一的成本实现接近前沿的质量
研究人员证明,复杂的智能体工作流可以直接编码到微调后的小型模型权重中,而非外部编排框架(如LangChain或LangGraph)。该方法在旅行预订、Zoom支持和保险等三个真实场景(14至55个节点的工作流)中实现了接近前沿的质量,推理成本降低100倍。
145 条新闻
研究人员证明,复杂的智能体工作流可以直接编码到微调后的小型模型权重中,而非外部编排框架(如LangChain或LangGraph)。该方法在旅行预订、Zoom支持和保险等三个真实场景(14至55个节点的工作流)中实现了接近前沿的质量,推理成本降低100倍。
研究人员提出了MOSS,一个通过重写自身源代码来改进的自主智能体框架——而不仅仅是提示词或微调权重。在OpenClaw基准测试中,一轮MOSS自我进化将分数从0.25提升至0.61,无需任何人工干预,证明智能体可以修复仅靠纯文本方法无法触及的路由、钩子和调度逻辑。
TerminalWorld是一项新基准测试,在真实Linux进程中对LLM智能体进行bash、git和文件操作的评估,无需任何模拟环境。由Zhaoyang Chu和Jiarui Hu领衔的八位作者为「计算机使用」智能体设立了新标杆,与Claude Code、GitHub Copilot Workspace和Cursor智能体模式等工具直接相关。
Anthropic发布了Claude Code CLI v2.1.149,将/usage命令扩展为按类别显示成本明细(skills、subagents、plugins、每个MCP服务器)。该版本修复了两个安全漏洞:PowerShell内置函数导致的权限绕过和git worktree沙箱的错误allowlist。还新增了企业设置allowAllClaudeAiMcps,方便连接云端MCP连接器。
Microsoft Research于2026年5月21日发布了针对小型模型智能体AI的三件套:MagenticLite(浏览器和文件系统UI应用程序)、MagenticBrain(从Qwen 3 14B微调的14B编排模型)和Fara1.5(4B、9B、27B三种规格的计算机使用模型)。Fara1.5-27B在Online-Mind2Web基准测试(300项网络任务)中达到SOTA 90%以上,几乎是前代Fara-7B性能的两倍。目标是证明智能体AI不需要巨型模型 — 只需设计良好的协同工具和执行框架。
AWS于2026年5月21日宣布Amazon Nova Act——用于浏览器和UI工作流自动化的智能体AI服务——已获得正式HIPAA合规资格。医疗机构现在可以使用Nova Act处理受保护的健康信息(ePHI),包括通过供应商网络门户自动完成预授权、保险核查和转诊发送。该服务与Amazon Bedrock AgentCore及Strand Agents框架集成,需要签署BAA协议和AWS KMS加密,目前仅在美东(北弗吉尼亚)地区提供。
Anthropic于2026年5月21日20:39 UTC发布Claude Code v2.1.147,引入了Workflow工具 — Claude Code生态系统中首个确定性多智能体编排机制。该工具初始默认禁用,通过环境变量CLAUDE_CODE_WORKFLOWS=1激活。同一版本将现有/simplify命令重命名为/code-review(支持高/中/低三个努力级别),并新增针对原型污染和基于thenable的逃逸攻击的沙箱加固。
LangChain于2026年5月21日发布了Christian Bromann和Nick Hollon撰写的文章,描述了从令牌流向结构化智能体流的范式演进。现代AI智能体规划任务、委托子智能体、调用工具、暂停等待人工审核 — 经典文本令牌流式传输不足以展示这些工作。LangChain提出在LangGraph中承载消息、工具调用、状态变化、子智能体活动和自定义事件的类型化通道。应用程序只订阅相关类型,使UI对长时间运行的工作负载保持高效。
OpenAI于2026年5月21日宣布Codex平台的企业级扩展 — 这一智能体编程工具已达到400万周活跃用户。新的Codex Labs计划和与大型咨询公司的合作伙伴关系已宣布,将帮助大型企业实施和扩展Codex。这一消息标志着正式的企业市场推广举措,将Codex定位为GitHub Copilot在中高端市场的直接竞争对手。
Anthropic于2026年5月19日在Research Preview中发布了MCP Tunnels——允许Claude代理连接至用户私有网络中的Model Context Protocol服务器——以及作为Anthropic基础设施替代方案的自托管沙盒。更新还包括在活跃会话中动态更改MCP配置,以及超过10万Token的工具输出自动溢出到沙盒文件。
Google DeepMind于2026年5月19日发布Co-Scientist——这是一个基于Gemini的多代理AI系统,通过6个专门代理在"创意锦标赛"辩论中生成、讨论并改进科学假设。该系统与100余家研究机构合作开发,已在肝纤维化、ALS、细胞衰老和传染病研究中取得具体成果,将分析时间从数月压缩至数天。
Google在I/O 2026大会上发布了第二波重磅AI产品:Antigravity 2.0——以代理为核心的开发平台,配备CLI和SDK;Gemini Spark——持续在设备端后台运行的个人AI代理;Universal Cart——跨Google服务整合的AI购物助手。三款产品紧随Gemini 3.5 Flash和Gemini Omni发布(已在前次报道中覆盖),共同奠定了Google代理优先生态系统战略。
LangChain于2026年5月20日在Deep Agents框架中引入解释器——内置QuickJS运行时环境,允许代理在LLM工具调用之间编写和执行代码,无需将状态序列化到消息历史。公司称在某些任务上可节省高达35%的Token消耗,因为状态持久保存在运行时内而非模型上下文中,且默认不允许访问文件系统、网络或Shell,具有明确的可控动作空间。
Claude Code v2.1.145新增JSON格式实时会话列表输出功能,扩展了OTEL追踪属性以跟踪智能体,并修复了Bash命令授权时的安全漏洞。可通过npm install -g @anthropic-ai/claude-code获取更新。
Anthropic与KPMG签署战略全球联盟,Claude将覆盖全球四大会计师事务所之一的全体员工。Claude将集成至KPMG数字网关平台,KPMG同时成为Anthropic在私募股权领域的首选合作伙伴。
AWS发布了使用Amazon Nova Sonic和AgentCore Gateway构建可扩展语音智能体的详细指南。三种架构模式——直接工具、子智能体和会话分段——提供不同的延迟与操作复杂性权衡。
Google的Gemini 3.5 Flash模型正式面向所有GitHub Copilot计划全面开放。该模型承诺以Flash层级的速度和更低成本提供接近Pro级别的代码质量,并特别强调对智能体工作流和多IDE环境的支持。
EnvFactory是一种自动合成可执行训练环境的新框架,专为工具调用智能体设计。在Qwen3模型上,仅使用85个验证环境即可在BFCLv3上实现+15%、在MCP-Atlas上实现+8.6%的提升——比同类方法少五倍的环境数量。
LongMINT是首个测量AI智能体在长期动态场景中记忆管理能力的基准。包含15,600个问答对,上下文最长达180万个token,被测系统平均准确率仅为27.9%——在大量案例中低于随机猜测。
新发布的arXiv论文引入「随机-确定性边界」作为生产级LLM智能体的核心设计原则,并定义了6种可组合的运行时模式——从分层委派到人机协作——根据三个架构关切进行选择:协调、状态与控制。
Anthropic于2026年5月18日收购了Stainless——这家成立于2022年的公司负责构建所有官方Anthropic SDK及MCP服务器工具。Stainless为数百家企业提供SDK生成服务,此次收购旨在改善Claude智能体与外部数据和工具的集成能力。
Anthropic在Claude API平台推出了三项重要更新:MCP Tunnels支持无需暴露互联网即可连接私有网络;自托管沙盒作为Anthropic托管基础设施的替代方案;以及超过100K token的工具输出自动文件溢出功能。
来自NUS和NTU的研究人员在arXiv论文2605.18661中分析了仅需15美元即可自主生成研究论文的系统。核心发现:前沿LLM会捏造结果,且无法可靠评估想法的新颖性。全面路线图划定了可靠辅助与不安全AI自主之间的边界。
arXiv:2605.16233提出FORGE,一种LLM智能体通过种群广播共享经验来构建共享记忆的方法——无需任何模型权重更新。在CybORG CAGE-2网络防御任务上,性能比零基线提升1.7至7.7倍,较弱模型的提升尤为显著。
Anthropic Claude Code CLI v2.1.144引入了/resume对后台会话的支持,显示「Agent completed · 3h 2m 5s」等持续时间;修复了API不可用时的75秒挂起问题;解决了MCP tools/list分页bug导致工具静默丢失的问题;并带来了一系列终端和MCP修复。
GitHub宣布GitHub Copilot CLI远程控制功能正式全面开放(GA)。通过/remote on命令,开发者可以从移动设备、网页、VS Code或JetBrains IDE监控和管理活跃的终端会话——无需中断工作流程。
来自UIUC和NVIDIA的41位研究人员认为,代码不仅仅是LLM的输出,而是代理工具——将推理、行动和验证统一在一个构建可靠AI系统的框架中的操作底层。
arXiv:2605.16238提出一个结合LLM与树搜索算法的自主系统,用于预测季节性流行病。在2025-26季节的实时预测中,该系统自主构建了流感、COVID-19和RSV模型,持续达到或超越CDC黄金标准的人工精选集成模型。
Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文,提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器(ReAct风格轨迹)+导航器(共享证据图+强化学习合成)——单搜索器提升5.5个百分点,8路并行提升12.7个百分点,64路并行在BrowseComp上达到86.2分,且不超出上下文窗口限制。
GitHub 于2026年5月15日正式宣布在所有 Copilot 体验(聊天、内联编辑、问答、代理模式、代码补全)中弃用 Grok Code Fast 1 模型。此次弃用发生在5月8日宣布后的一周。推荐替代方案:GPT-5 mini 和 Claude Haiku 4.5——均可通过标准模型策略获得。企业管理员需通过 Copilot 设置启用替代方案。
Databricks于2026年5月18日宣布与Veeva Systems深化合作,将Genie AI智能体直接集成到面向生命科学行业的Vault CRM工作流中。三款专业智能体角色——销售代表智能体、医学科学联络员(MSL)智能体和区域经理智能体——通过Unity Catalog治理访问Databricks数据湖仓。此次发布先于2026年5月19日至20日在波士顿举办的Veeva商业峰会。
Claude Code v2.1.143是Anthropic于2026年5月15日发布的CLI代理新版本,本周第五个补丁。引入插件依赖强制执行与disable-chain提示、市场中的预测上下文成本显示(每轮及每次调用的token估算)、新的worktree.bgIsolation设置、PowerShell -ExecutionPolicy Bypass自动标志,以及在空闲唤醒后保留模型/努力级别的后台会话。
GitHub Accessibility Agent是2026年5月15日发布的通用无障碍自动化案例研究。该智能体审查了3,535个拉取请求,解决率达68%,并发现了一个重要偏向:LLM由于在数十年不可访问的代码上训练,具有产生无障碍反模式的不良倾向。GitHub使用顺序审查者+实现者架构(双层模型)而非并行子智能体——降低了token消耗并提升了准确性。
LIFE演进调研是由Shihao Qi、Jie Ma、Rui Xing、Wei Guo及14位共同作者于2026年5月15日在arXiv发表的多智能体LLM系统综合综述。该调研通过四个因果关联阶段组织该领域——奠基(Lay,个体能力)、整合(Integrate,智能体协作)、发现(Find,故障归因)和演化(Evolve,自主改进)。主要论点:智能体间的错误传播产生的故障很少转化为结构性自我改进。
Claude Code v2.1.142 是 Anthropic CLI 智能体的新版本,于 2026 年 5 月 14 日发布。本周第四个补丁,继 v2.1.139、v2.1.140 和 v2.1.141 之后。新增八个用于 claude agents 后台会话的标志(--add-dir、--settings、--mcp-config、--plugin-dir、--permission-mode、--model、--effort、--dangerously-skip-permissions)。Fast Mode 默认模型现已切换至 Opus 4.7(原为 Opus 4.6)。修复 MCP 工具超时、git worktree 识别、macOS 睡眠守护进程及 Windows 网络驱动器死锁问题。
GitHub Copilot App是于2026年5月14日发布的技术预览版全新独立GitHub原生桌面应用程序。与IDE插件不同,它为每个任务提供独立会话——每个会话拥有自己的分支、文件、对话状态和任务状态。Agent Merge功能自主处理审查评论、修复失败检查并在满足条件后合并。Copilot Pro/Pro+用户可通过早期访问使用,Business/Enterprise用户将通过逐步推出获得访问权限。
OpenAI Codex随处可用是于2026年5月14日宣布的编程代理移动端和Web端新推出阶段。开发者可通过智能手机和平板电脑上的ChatGPT移动应用实时监控、引导和审批编程任务。该方式将Codex从Windows沙盒(5月13日)和Codex CLI部署扩展至异构计算环境,完成OpenAI跨平台战略。
Amazon Nova Sonic + WebRTC集成是AWS于2026年5月13日发布的实时语音智能体应用新架构。语音转语音事件处理器通过Kinesis Video Streams WebRTC信令编排媒体和文本数据事件,同时服务端VAD减少音频令牌消耗。Nova Sonic支持向MCP服务器、Strands智能体和RAG系统的异步工具调用——物联网和网联汽车场景为首批演示案例。
Claude Code v2.1.141 是 Anthropic CLI 智能体的新版本,于2026年5月13日发布。本周第三个补丁版本新增了 terminalSequence 字段用于 Hook JSON 输出、CLAUDE_CODE_PLUGIN_PREFER_HTTPS 和 ANTHROPIC_WORKSPACE_ID 环境变量、claude agents --cwd 路径作用域,以及新的「摘要至此」回溯菜单选项用于压缩早期上下文。同时修复了 Bedrock/Vertex Haiku 模型 ID 竞争条件及 Windows 守护进程状态问题。
Managed Deep Agents是LangChain于2026年5月13日在LangSmith平台私有测试版中发布的新托管智能体运行时。该服务提供持久执行、持久记忆、集成工具链和全面可观测性——生产深度智能体所需的全部基础设施组件。智能体定义通过标准的AGENTS.md和tools.json文件保留在代码仓库中。
Codex Windows沙盒是OpenAI于2026年5月13日发布的全新安全架构,使Codex智能体能够在Windows操作系统上安全运行。沙盒引入受控文件系统访问和网络限制,以实现安全高效的编码智能体——Codex由此成为跨平台工具,不再局限于macOS/Linux开发者。
Claude Code v2.1.140 是 Anthropic CLI 智能体的新版本,于 2026 年 5 月 12 日发布,修复了十个缺陷,包括:当 disableAllHooks 设置启用时 /goal 命令静默挂起、热重载中符号链接 settings 文件的回归问题、企业端点安全启动问题,以及 Read 工具中 offset 参数的验证。子智能体类型匹配现在接受不区分大小写的值。
SAGE 是由王俊通等人于 2026 年 5 月 12 日在 arXiv 发表的面向 LLM 智能体的自进化图记忆引擎。该引擎采用记忆写入器与记忆读取器(图基础模型)构成的反馈循环,可自主扩展与重组。在 Natural Questions 的零样本开放域检索中,Recall@2/5 分别达到 82.5/91.6,并在 LongMemEval 与 HaluMem 幻觉指标上均有提升。
AI Pointer 是 Google DeepMind 于 2026 年 5 月 12 日发布的实验性产品,将 Gemini 模型集成到上下文感知的鼠标指针中。用户只需指向目标并说出简短指令,如「Fix this」或「Compare these」,无需将内容复制到单独的应用中。该功能已在 Chrome 中立即可用,Magic Pointer 将随新款 Googlebook 笔记本电脑推出。
NVIDIA OpenShell 与 SAP Joule Studio 集成是一个新的企业智能体平台,于 2026 年 5 月 12 日 SAP Sapphire 大会上发布。NVIDIA OpenShell 提供隔离运行时与策略执行,SAP Business AI Platform 将其作为安全层集成,Joule Studio 则提供智能体构建环境。NemoClaw 参考蓝图已在 Joule Studio 中立即可用。
MedMemoryBench 是首个针对个性化医疗 AI 智能体记忆机制的基准测试,由浙江大学团队于 2026 年 5 月 12 日在 arXiv 发布。通过人机协同流程构建了约 2000 个会话与 16000 个交互轮次。核心发现:主流 AI 架构在医疗推理场景下表现出记忆饱和现象,持续信息涌入会导致性能下降。
TMAS(测试时多智能体扩展)是一种新的测试时计算扩展方法,将LLM推理组织为具有层次化内存库的专业化智能体之间的协作。作者(加州大学伯克利分校+DeepMind)展示了在相同计算预算下,在MATH-500、AIME 2024、HumanEval和GPQA Diamond上超越所有现有基线方法(Best-of-N、MCTS、AutoTTS)的结果。该方法在单一流水线中结合了推理+检索+验证。
AWS Strands Agents SDK是一个用于构建自主AI智能体的开源框架,已与Exa深度集成。Exa是一款在语义层面索引网络的AI原生搜索引擎。智能体现在可以自主决定何时搜索网络、综合多个来源的报告并引用数据——无需构建自定义爬虫或抓取基础设施。该集成将启用网络搜索的智能体开发简化至十几行代码。
SocialReasoning-Bench 是微软研究院新发布的基准测试,衡量 AI 智能体在与其他方谈判时是否真正维护用户利益——而不仅仅是完成任务。结果显示模型几乎能完美达成交易,但在市场场景中始终将价值留给对方,90%+ 的结果被归类为低效或疏忽。
论文 arXiv:2605.07313 提出了规模条件评估协议,测试智能体记忆系统在无关数据积累时是否仍能正常运作。HippoRAG 损失 16-20 个百分点的预算合规可靠性,LiCoMemory 随模型大小而变化。作者(Shao、Lu、Zhang、Luo)得出结论:可靠性损失并非个别现象。