2026年5月23日星期六

15 条新闻 — 🔴 3 重要 , 🟡 7 值得关注 , 🟢 5 有趣

📦 开源 (1)

🟢 📦 开源 2026年5月23日 · 3 分钟阅读

Kedro：1.2.0版本带来@experimental装饰器和LangGraph智能体starter用于GenAI管道

Linux Foundation AI项目Kedro发布了1.2.0版本以及Kedro-Viz 12.3.0。新的@experimental装饰器允许标记处于开发中的API，starter项目support-agent-langgraph演示了与LangGraph编排和Langfuse/Opik提示管理工具的集成。Kedro-Viz获得了Mermaid图表和节点预览可扩展性，以改善管道调试。

🤝 智能体 (4)

🔴 🤝 智能体 2026年5月23日 · 3 分钟阅读

arXiv:2605.22502：将智能体工作流编译进LLM权重，以百分之一的成本实现接近前沿的质量

研究人员证明，复杂的智能体工作流可以直接编码到微调后的小型模型权重中，而非外部编排框架（如LangChain或LangGraph）。该方法在旅行预订、Zoom支持和保险等三个真实场景（14至55个节点的工作流）中实现了接近前沿的质量，推理成本降低100倍。

🔴 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22794：MOSS展示通过修改自身源代码进行自我改进的智能体

研究人员提出了MOSS，一个通过重写自身源代码来改进的自主智能体框架——而不仅仅是提示词或微调权重。在OpenClaw基准测试中，一轮MOSS自我进化将分数从0.25提升至0.61，无需任何人工干预，证明智能体可以修复仅靠纯文本方法无法触及的路由、钩子和调度逻辑。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

arXiv:2605.22535：TerminalWorld基准测试在真实Linux终端任务中评估LLM智能体，无需模拟环境

TerminalWorld是一项新基准测试，在真实Linux进程中对LLM智能体进行bash、git和文件操作的评估，无需任何模拟环境。由Zhaoyang Chu和Jiarui Hu领衔的八位作者为「计算机使用」智能体设立了新标杆，与Claude Code、GitHub Copilot Workspace和Cursor智能体模式等工具直接相关。

🟡 🤝 智能体 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.149带来/usage分类明细并修复PowerShell权限绕过

Anthropic发布了Claude Code CLI v2.1.149，将/usage命令扩展为按类别显示成本明细（skills、subagents、plugins、每个MCP服务器）。该版本修复了两个安全漏洞：PowerShell内置函数导致的权限绕过和git worktree沙箱的错误allowlist。还新增了企业设置allowAllClaudeAiMcps，方便连接云端MCP连接器。

🔧 硬件 (1)

🟢 🔧 硬件 2026年5月23日 · 3 分钟阅读

AMD：Gluon块级模型在Instinct MI355上实现MXFP4 5.255 TFLOPS GEMM内核

AMD ROCm团队发布了在MI355 GPU上使用Gluon编程模型编写高性能GEMM内核的教程。经过优化的FP16内核达到1.489 TFLOPS，MFMA效率98.75%，扩展到BF8（3.257 TFLOPS）和MXFP4（5.255 TFLOPS）展示了对现代AI工作负载的适用性。教程包含将L2缓存未命中从530万减少到410万的工作组重映射与swizzle技术。

🏥 实践应用 (5)

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

arXiv:2605.22681：CUSP基准测试显示前沿模型无法可靠预测科学突破

CUSP基准测试用4,700个事件的数据库测试AI模型预测科学突破的能力。前沿模型（GPT-5、Claude Opus 4.7、Gemini 3 Pro）能识别合理的研究方向，但系统性地以过高置信度猜测结果和时机。额外的截止前上下文并无帮助——限制是结构性的，而非信息性的。

🟡 🏥 实践应用 2026年5月23日 · 2 分钟阅读

GitHub：2026年Gartner魔力象限——GitHub Copilot连续第三年荣获企业AI编码代理领导者

Gartner在其2026年企业AI编码代理魔力象限报告中将GitHub定位为领导者——这是该类别存在以来连续第三年。GitHub Copilot目前被全球140,000个组织使用，评估强调了覆盖整个SDLC（从代码到审查、安全和治理）的智能体工作流，而不仅仅是代码生成。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22337：Meta-Soft通过可组合元令牌和可学习正交基引入KV缓存压缩

研究人员提出了Meta-Soft，一种用于LLM推理中动态KV缓存压缩的新方法。该方法使用可学习的正交基矩阵和选择器网络，合成软元令牌——长提示中关键信息的压缩表示。注意力流机制将已删除令牌的语义信息重新分配给保留的令牌，在大多数长上下文基准测试中优于现有的KV缓存驱逐方法。

🟢 🏥 实践应用 2026年5月23日 · 3 分钟阅读

arXiv:2605.22664：WorkstreamBench测试LLM智能体处理金融端到端电子表格任务，前沿模型表现不佳

WorkstreamBench是一项由Thomson Yen带领10位作者完成的新基准测试，在金融领域对LLM智能体进行真实Excel和电子表格任务的测试——包括发票、报告、费用分析。GPT-4o、Claude和Gemini在对比测试中均未能可靠地完成全部任务，这表明当前面向企业财务的智能体基础设施存在结构性不足。

🟢 🏥 实践应用 2026年5月23日 · 2 分钟阅读

Anthropic Claude Code v2.1.150 — 内部基础设施补丁，无用户可见更改

Anthropic于UTC时间周六04:03发布了Claude Code CLI版本v2.1.150，距v2.1.149仅一天。该版本仅包含内部基础设施改进，无任何面向用户的更改。适用于Darwin、Linux和Windows的ARM64和x64架构，以及Linux musl构建版本。

🛡️ 安全 (3)

🔴 🛡️ 安全 2026年5月23日 · 2 分钟阅读

Anthropic：Project Glasswing首月发现超过10,000个高风险漏洞

Anthropic Project Glasswing聚集了约50个安全合作伙伴，使用Claude Mythos Preview扫描关键软件。首月发现超过10,000个高风险和严重漏洞，开放的开源扫描器在千个项目中发现6,202个漏洞，真阳性率达90.6%。

🟡 🛡️ 安全 2026年5月23日 · 3 分钟阅读

arXiv:2605.22786：LCGuard保护多智能体系统中共享KV缓存，防止智能体间数据泄露

LCGuard是一个新框架，用于保护多智能体系统中为提高效率而共享KV缓存时的数据泄露问题。由IBM Research和MIT的研究人员在Sadie Asif领衔下提出的研究，为「隐性通信守卫」方法建立了首个正式模型，适用于多个智能体通过共享内存共享上下文的生产级智能体RAG系统。

🟡 🛡️ 安全 2026年5月23日 · 2 分钟阅读

GitHub：npm 11.15.0引入分阶段发布和三个新的安装时--allow标志用于供应链加固

GitHub发布了npm CLI版本11.15.0，引入分阶段发布——软件包在可供安装前需要维护者批准。还引入了三个新的安装时标志（--allow-file、--allow-remote、--allow-directory）以及现有的--allow-git，用于在npm install命令中精细控制依赖项来源。

✨ 趣闻 (1)

🟡 ✨ 趣闻 2026年5月23日 · 3 分钟阅读

arXiv:2605.22763：AI智能体结合Lean验证解决9个开放Erdős问题和44个OEIS猜想

来自DeepMind和MIT CSAIL的20名研究人员组成的团队发布了首个关于LLM在Lean定理证明器中自主生成形式证明的大规模评估。该智能体将LLM生成与Lean符号验证相结合，自主解决了353个开放Erdős问题中的9个，并证明了492个OEIS猜想中的44个。

← 前一天后一天 →