2026年5月14日星期四

15 条新闻 — 🟡 10 值得关注 , 🟢 5 有趣

← 前一天 后一天 →

🤖 模型 (3)

🟡 🤖 模型 2026年5月14日 · 2 分钟阅读

arXiv:2605.13301 SU-01:30B A3B 模型通过三阶段训练在 IMO 2025、USAMO 2026 和 IPhO 达到金牌水平

编辑插图:带有数学公式和 AI 推理树的奥运领奖台。

SU-01 是2026年5月14日在 arXiv 发布的全新推理训练方法论(Yafu Li 及27位共同作者,通讯作者 Runzhe Zhan)。30B 参数 A3B 骨干网络通过三个连续阶段——340K 轨迹上的逆困惑度课程 SFT、两阶段 RL 和测试时扩展——在 IMO 2025、USAMO 2026 和 IPhO 2024-2025 达到金牌水平。推理链可延伸至 100K+ 词元。

🟢 🤖 模型 2026年5月14日 · 2 分钟阅读

Allen Institute:AIMIP基准测试——AI气候模型在历史数据上精度提升2倍,但无法泛化至长期变暖趋势

编辑插图:AI模型曲线与历史数据对比的气候时间序列图表。

AIMIP(AI模型比较项目)是Allen Institute联合NVIDIA、谷歌研究院、华盛顿大学、马里兰大学和ArchesWeather团队于2026年5月13日发布的新型AI气象和气候模型社区基准测试。第一阶段对八个AI模型模拟的评估显示历史数据误差减少了一半——但同时也暴露出在长期变暖趋势上的严重泛化能力不足。

🟢 🤖 模型 2026年5月14日 · 2 分钟阅读

Microsoft Research GridSFM:基础模型以比DC近似快100倍的速度解决交流最优潮流

编辑插图:带有AI基础模型和优化图的电力系统网络。

GridSFM是微软研究院于2026年5月13日发布的新型电力系统小型基础模型。它能在毫秒内对500至80000节点的电网进行交流最优潮流近似,比DC近似快100倍,比完整AC求解器快1000倍。中位成本差为2.23%,可行性检测达94.5%/96.1%,模型每年有望节省200亿美元的拥塞成本。

📦 开源 (2)

🤝 智能体 (4)

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Amazon Nova Sonic + WebRTC:实时语音智能体通过Kinesis Video Streams与异步工具调用支持RAG/MCP

编辑插图:语音智能体及WebRTC流和指向云系统的工具调用箭头。

Amazon Nova Sonic + WebRTC集成是AWS于2026年5月13日发布的实时语音智能体应用新架构。语音转语音事件处理器通过Kinesis Video Streams WebRTC信令编排媒体和文本数据事件,同时服务端VAD减少音频令牌消耗。Nova Sonic支持向MCP服务器、Strands智能体和RAG系统的异步工具调用——物联网和网联汽车场景为首批演示案例。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

Anthropic: Claude Code v2.1.141 新增 terminalSequence Hook、Bedrock Haiku 修复及「摘要至此」回溯选项

编辑插图:带有新 Hook 图标和回溯控件的 Claude Code 终端。

Claude Code v2.1.141 是 Anthropic CLI 智能体的新版本,于2026年5月13日发布。本周第三个补丁版本新增了 terminalSequence 字段用于 Hook JSON 输出、CLAUDE_CODE_PLUGIN_PREFER_HTTPS 和 ANTHROPIC_WORKSPACE_ID 环境变量、claude agents --cwd 路径作用域,以及新的「摘要至此」回溯菜单选项用于压缩早期上下文。同时修复了 Bedrock/Vertex Haiku 模型 ID 竞争条件及 Windows 守护进程状态问题。

🟡 🤝 智能体 2026年5月14日 · 2 分钟阅读

LangChain: Managed Deep Agents——LangSmith中具备持久执行与记忆层的托管运行时

编辑插图:云环境中带有记忆和工具层的托管智能体运行时。

Managed Deep Agents是LangChain于2026年5月13日在LangSmith平台私有测试版中发布的新托管智能体运行时。该服务提供持久执行、持久记忆、集成工具链和全面可观测性——生产深度智能体所需的全部基础设施组件。智能体定义通过标准的AGENTS.md和tools.json文件保留在代码仓库中。

🟡 🤝 智能体 2026年5月14日 · 1 分钟阅读

OpenAI: Codex Windows沙盒为自主智能体引入受控文件系统访问与网络限制

编辑插图:Codex终端及围绕文件系统和网络访问的安全层。

Codex Windows沙盒是OpenAI于2026年5月13日发布的全新安全架构,使Codex智能体能够在Windows操作系统上安全运行。沙盒引入受控文件系统访问和网络限制,以实现安全高效的编码智能体——Codex由此成为跨平台工具,不再局限于macOS/Linux开发者。

🏥 实践应用 (4)

🟡 🏥 实践应用 2026年5月14日 · 2 分钟阅读

Perplexity: finance_search Agent API 工具一次调用返回 OHLCV、资产负债表、电话会议记录及分析师预测

编辑插图:带有 OHLCV 图表和 AI 智能体箭头的金融数据仪表盘。

Perplexity finance_search 是2026年5月推出的全新 Agent API 工具,可为上市公司返回结构化金融数据——近实时价格、OHLCV 范围、盘前盘后数据、损益表、资产负债表、现金流量、财报电话会议记录、SEC 文件、分析师预测及 ETF 成分股。模型根据提示自动决定获取哪些字段。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

AWS:Pulse AI + Bedrock流水线对Nova Micro进行金融文档微调——3小时处理1000份文档

编辑插图:金融文档与自动提取流水线和结构化数据。

AWS Pulse AI + Amazon Bedrock金融文档处理是AWS于2026年5月13日发布的新企业流水线蓝图。将Pulse AI从复杂金融文档(SEC文件、资产负债表、审计材料)的数据提取与Amazon Nova Micro模型微调相结合。此前需要多天处理的1000份文档批次在不到3小时内完成,微调后的模型支票数据提取精度从50%基准提升至100%。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

CNCF:KubeStellar AI 智能体通过 91% 测试覆盖率和 63 个 CI/CD 工作流实现 81% PR 合并率

编辑插图:带有 AI 智能体图标和 CI/CD 流水线箭头的 Kubernetes 集群。

KubeStellar AI Agents 是 CNCF 博客上由 KubeStellar Console 首席维护者 Andy Anderson 发布的全新案例研究,发布于2026年5月14日。这个多集群 Kubernetes 仪表盘通过两个并行 AI 编码智能体在82天内实现了 81% 的 PR 合并率。基础设施:63个 CI/CD 工作流、32个夜间测试套件、12个分片上 91% 覆盖率、Bug 到合并约30分钟。Anderson 定义了 AI 代码库成熟度的五个层级。

🟢 🏥 实践应用 2026年5月14日 · 2 分钟阅读

GitHub:Copilot Cloud Agent REST API开放用于大规模重构、仓库初始化和周度发版准备

编辑插图:带有自主智能体图标和REST API端点的GitHub Actions工作流。

GitHub Copilot Cloud Agent REST API是GitHub于2026年5月13日在公开预览中发布的新开发者端点,允许以编程方式启动自主Copilot任务。三个主要使用场景:跨多仓库的代码重构/迁移大规模分发、来自开发者门户的一键仓库初始化,以及含发版说明的自动周度发版准备。面向Copilot Business和Enterprise订阅者开放。

🛡️ 安全 (2)

← 前一天 后一天 →