2026年5月23日星期六

15 条新闻 — 🔴 3 重要 , 🟡 7 值得关注 , 🟢 5 有趣

← 前一天

📦 开源 (1)

🤝 智能体 (4)

🔴 🤝 智能体 2026年5月23日 · 3 分钟阅读

arXiv:2605.22502:将智能体工作流编译进LLM权重,以百分之一的成本实现接近前沿的质量

编辑插图:工作流节点坍缩成紧凑的神经网络核心

研究人员证明,复杂的智能体工作流可以直接编码到微调后的小型模型权重中,而非外部编排框架(如LangChain或LangGraph)。该方法在旅行预订、Zoom支持和保险等三个真实场景(14至55个节点的工作流)中实现了接近前沿的质量,推理成本降低100倍。

🔴 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22794:MOSS展示通过修改自身源代码进行自我改进的智能体

编辑插图:AI 代理在沙箱循环中重写自己的源代码

研究人员提出了MOSS,一个通过重写自身源代码来改进的自主智能体框架——而不仅仅是提示词或微调权重。在OpenClaw基准测试中,一轮MOSS自我进化将分数从0.25提升至0.61,无需任何人工干预,证明智能体可以修复仅靠纯文本方法无法触及的路由、钩子和调度逻辑。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22535:TerminalWorld基准测试在真实Linux终端任务中评估LLM智能体,无需模拟环境

编辑插图:包含git和bash命令的终端提示符及执行命令的AI智能体

TerminalWorld是一项新基准测试,在真实Linux进程中对LLM智能体进行bash、git和文件操作的评估,无需任何模拟环境。由Zhaoyang Chu和Jiarui Hu领衔的八位作者为「计算机使用」智能体设立了新标杆,与Claude Code、GitHub Copilot Workspace和Cursor智能体模式等工具直接相关。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.149带来/usage分类明细并修复PowerShell权限绕过

编辑插图:终端中带使用细分图表和安全盾牌

Anthropic发布了Claude Code CLI v2.1.149,将/usage命令扩展为按类别显示成本明细(skills、subagents、plugins、每个MCP服务器)。该版本修复了两个安全漏洞:PowerShell内置函数导致的权限绕过和git worktree沙箱的错误allowlist。还新增了企业设置allowAllClaudeAiMcps,方便连接云端MCP连接器。

🔧 硬件 (1)

🏥 实践应用 (5)

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

arXiv:2605.22681:CUSP基准测试显示前沿模型无法可靠预测科学突破

编辑插图:科学曲线突破点与未能预测的AI系统

CUSP基准测试用4,700个事件的数据库测试AI模型预测科学突破的能力。前沿模型(GPT-5、Claude Opus 4.7、Gemini 3 Pro)能识别合理的研究方向,但系统性地以过高置信度猜测结果和时机。额外的截止前上下文并无帮助——限制是结构性的,而非信息性的。

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

GitHub:2026年Gartner魔力象限——GitHub Copilot连续第三年荣获企业AI编码代理领导者

编辑插图:象限矩阵中 GitHub Copilot 位于 Leader 区

Gartner在其2026年企业AI编码代理魔力象限报告中将GitHub定位为领导者——这是该类别存在以来连续第三年。GitHub Copilot目前被全球140,000个组织使用,评估强调了覆盖整个SDLC(从代码到审查、安全和治理)的智能体工作流,而不仅仅是代码生成。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22337:Meta-Soft通过可组合元令牌和可学习正交基引入KV缓存压缩

编辑插图:元令牌将注意力缓存压缩到正交基结构

研究人员提出了Meta-Soft,一种用于LLM推理中动态KV缓存压缩的新方法。该方法使用可学习的正交基矩阵和选择器网络,合成软元令牌——长提示中关键信息的压缩表示。注意力流机制将已删除令牌的语义信息重新分配给保留的令牌,在大多数长上下文基准测试中优于现有的KV缓存驱逐方法。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22664:WorkstreamBench测试LLM智能体处理金融端到端电子表格任务,前沿模型表现不佳

编辑插图:包含公式的Excel电子表格和正在分析它们的AI智能体

WorkstreamBench是一项由Thomson Yen带领10位作者完成的新基准测试,在金融领域对LLM智能体进行真实Excel和电子表格任务的测试——包括发票、报告、费用分析。GPT-4o、Claude和Gemini在对比测试中均未能可靠地完成全部任务,这表明当前面向企业财务的智能体基础设施存在结构性不足。

🟢 🏥 实践应用 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.150 — 内部基础设施补丁,无用户可见更改

编辑插图:带有版本号和内部齿轮图案的Claude Code终端

Anthropic于UTC时间周六04:03发布了Claude Code CLI版本v2.1.150,距v2.1.149仅一天。该版本仅包含内部基础设施改进,无任何面向用户的更改。适用于Darwin、Linux和Windows的ARM64和x64架构,以及Linux musl构建版本。

🛡️ 安全 (3)

✨ 趣闻 (1)

← 前一天