2026年5月14日星期四

15 条新闻 — 🟡 10 值得关注 , 🟢 5 有趣

🤖 模型 (3)

🟡 🤖 模型 2026年5月14日 · 2 分钟阅读

arXiv:2605.13301 SU-01：30B A3B 模型通过三阶段训练在 IMO 2025、USAMO 2026 和 IPhO 达到金牌水平

SU-01 是2026年5月14日在 arXiv 发布的全新推理训练方法论（Yafu Li 及27位共同作者，通讯作者 Runzhe Zhan）。30B 参数 A3B 骨干网络通过三个连续阶段——340K 轨迹上的逆困惑度课程 SFT、两阶段 RL 和测试时扩展——在 IMO 2025、USAMO 2026 和 IPhO 2024-2025 达到金牌水平。推理链可延伸至 100K+ 词元。

🟢 🤖 模型 2026年5月14日 · 2 分钟阅读

Allen Institute：AIMIP基准测试——AI气候模型在历史数据上精度提升2倍，但无法泛化至长期变暖趋势

AIMIP（AI模型比较项目）是Allen Institute联合NVIDIA、谷歌研究院、华盛顿大学、马里兰大学和ArchesWeather团队于2026年5月13日发布的新型AI气象和气候模型社区基准测试。第一阶段对八个AI模型模拟的评估显示历史数据误差减少了一半——但同时也暴露出在长期变暖趋势上的严重泛化能力不足。

🟢 🤖 模型 2026年5月14日 · 2 分钟阅读

Microsoft Research GridSFM：基础模型以比DC近似快100倍的速度解决交流最优潮流

GridSFM是微软研究院于2026年5月13日发布的新型电力系统小型基础模型。它能在毫秒内对500至80000节点的电网进行交流最优潮流近似，比DC近似快100倍，比完整AC求解器快1000倍。中位成本差为2.23%，可行性检测达94.5%/96.1%，模型每年有望节省200亿美元的拥塞成本。

📦 开源 (2)

🟡 📦 开源 2026年5月14日 · 1 分钟阅读

LangChain: LangSmith Engine自动化智能体调试——错误聚类、根因分析与PR及评估器推荐

LangSmith Engine是LangChain于2026年5月13日发布的新平台，可自动化AI智能体的生产反馈循环。引擎分析来自生产运行的追踪数据、按模式聚类错误、定位代码中的根本原因，并生成具体的拉取请求建议和评估器定义。目标是从手动调试转向持续自动化改进。

🟡 📦 开源 2026年5月14日 · 1 分钟阅读

PyTorch: 2.12版本带来设备无关torch.accelerator.Graph、MX量化及100倍更快的linalg.eigh

PyTorch 2.12是PyTorch框架于2026年5月13日发布的新生产版本，包含2926个提交和457名贡献者。主要特性：torch.accelerator.Graph设备无关API支持CUDA、XPU及第三方后端；torch.export支持Microscaling MX量化（MXFP4/6/8）；linalg.eigh通过cuSolver在CUDA上提速最高100倍；以及CUDA Graphs内的torch.cond支持。TorchScript已被正式移除。

🤝 智能体 (4)

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Amazon Nova Sonic + WebRTC：实时语音智能体通过Kinesis Video Streams与异步工具调用支持RAG/MCP

Amazon Nova Sonic + WebRTC集成是AWS于2026年5月13日发布的实时语音智能体应用新架构。语音转语音事件处理器通过Kinesis Video Streams WebRTC信令编排媒体和文本数据事件，同时服务端VAD减少音频令牌消耗。Nova Sonic支持向MCP服务器、Strands智能体和RAG系统的异步工具调用——物联网和网联汽车场景为首批演示案例。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Anthropic: Claude Code v2.1.141 新增 terminalSequence Hook、Bedrock Haiku 修复及「摘要至此」回溯选项

Claude Code v2.1.141 是 Anthropic CLI 智能体的新版本，于2026年5月13日发布。本周第三个补丁版本新增了 terminalSequence 字段用于 Hook JSON 输出、CLAUDE_CODE_PLUGIN_PREFER_HTTPS 和 ANTHROPIC_WORKSPACE_ID 环境变量、claude agents --cwd 路径作用域，以及新的「摘要至此」回溯菜单选项用于压缩早期上下文。同时修复了 Bedrock/Vertex Haiku 模型 ID 竞争条件及 Windows 守护进程状态问题。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

LangChain: Managed Deep Agents——LangSmith中具备持久执行与记忆层的托管运行时

Managed Deep Agents是LangChain于2026年5月13日在LangSmith平台私有测试版中发布的新托管智能体运行时。该服务提供持久执行、持久记忆、集成工具链和全面可观测性——生产深度智能体所需的全部基础设施组件。智能体定义通过标准的AGENTS.md和tools.json文件保留在代码仓库中。

🟡 🤝 智能体 2026年5月14日 · 1 分钟阅读

OpenAI: Codex Windows沙盒为自主智能体引入受控文件系统访问与网络限制

Codex Windows沙盒是OpenAI于2026年5月13日发布的全新安全架构，使Codex智能体能够在Windows操作系统上安全运行。沙盒引入受控文件系统访问和网络限制，以实现安全高效的编码智能体——Codex由此成为跨平台工具，不再局限于macOS/Linux开发者。

🏥 实践应用 (4)

🟡 🏥 实践应用 2026年5月14日 · 2 分钟阅读

Perplexity: finance_search Agent API 工具一次调用返回 OHLCV、资产负债表、电话会议记录及分析师预测

Perplexity finance_search 是2026年5月推出的全新 Agent API 工具，可为上市公司返回结构化金融数据——近实时价格、OHLCV 范围、盘前盘后数据、损益表、资产负债表、现金流量、财报电话会议记录、SEC 文件、分析师预测及 ETF 成分股。模型根据提示自动决定获取哪些字段。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

AWS：Pulse AI + Bedrock流水线对Nova Micro进行金融文档微调——3小时处理1000份文档

AWS Pulse AI + Amazon Bedrock金融文档处理是AWS于2026年5月13日发布的新企业流水线蓝图。将Pulse AI从复杂金融文档（SEC文件、资产负债表、审计材料）的数据提取与Amazon Nova Micro模型微调相结合。此前需要多天处理的1000份文档批次在不到3小时内完成，微调后的模型支票数据提取精度从50%基准提升至100%。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

CNCF：KubeStellar AI 智能体通过 91% 测试覆盖率和 63 个 CI/CD 工作流实现 81% PR 合并率

编辑插图：带有 AI 智能体图标和 CI/CD 流水线箭头的 Kubernetes 集群。

KubeStellar AI Agents 是 CNCF 博客上由 KubeStellar Console 首席维护者 Andy Anderson 发布的全新案例研究，发布于2026年5月14日。这个多集群 Kubernetes 仪表盘通过两个并行 AI 编码智能体在82天内实现了 81% 的 PR 合并率。基础设施：63个 CI/CD 工作流、32个夜间测试套件、12个分片上 91% 覆盖率、Bug 到合并约30分钟。Anderson 定义了 AI 代码库成熟度的五个层级。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

GitHub：Copilot Cloud Agent REST API开放用于大规模重构、仓库初始化和周度发版准备

编辑插图：带有自主智能体图标和REST API端点的GitHub Actions工作流。

GitHub Copilot Cloud Agent REST API是GitHub于2026年5月13日在公开预览中发布的新开发者端点，允许以编程方式启动自主Copilot任务。三个主要使用场景：跨多仓库的代码重构/迁移大规模分发、来自开发者门户的一键仓库初始化，以及含发版说明的自动周度发版准备。面向Copilot Business和Enterprise订阅者开放。

🛡️ 安全 (2)

🟡 🛡️ 安全 2026年5月14日 · 2 分钟阅读

arXiv:2605.13825 History Anchors：一条指令使 17 个前沿 LLM 的不安全决策率升至 91-98%

History Anchors 是2026年5月14日由 Alberto G. Rodríguez Salgado 在 arXiv 发表的全新安全论文。研究表明，一条「与先前策略保持一致」的指令，能使已对齐 LLM 的不安全结果率从接近零的基线升至 91-98%。测试涵盖6家提供商的17个前沿模型，使用含10个高风险领域的 HistoryAnchor-100 数据集。研究揭示逆向缩放规律：更强的模型反而更脆弱。

🟡 🛡️ 安全 2026年5月14日 · 2 分钟阅读

AWS与Cisco：AI Registry通过YARA、LLM语义分析和Cisco专有扫描器审查MCP与A2A智能体

AWS + Cisco AI Defense集成是2026年5月13日发布的新型企业AI智能体安全栈。开放AI Registry控制平面在注册时扫描MCP服务器和A2A智能体，使用YARA模式分析、通过Amazon Bedrock的LLM语义扫描以及Cisco专有扫描器。存在漏洞的服务器被标记为security-pending并保持禁用状态，直到管理员批准审查。

← 前一天后一天 →