2026年5月6日星期三

16 条新闻 — 🔴 2 重要 , 🟡 11 值得关注 , 🟢 3 有趣

← 前一天后一天 →

🤖 模型 (4)

🔴 🤖 模型 2026年5月6日 · 2 分钟阅读

OpenAI: GPT-5.5 Instant 成为 ChatGPT 新默认模型，减少幻觉

编辑插图：蓝色背景上 ChatGPT 界面标注 GPT-5.5 Instant 为新默认模型

GPT-5.5 Instant 是 OpenAI 于 2026 年 5 月 5 日推出的新 ChatGPT 默认模型。该模型带来更智能、更精确的回答，减少幻觉并提升个性化能力，同时附带系统卡片一并发布。

🟡 🤖 模型 2026年5月6日 · 2 分钟阅读

arXiv:2605.03871: EvoLM — 无需外部监督即可自我提升的语言模型

EvoLM是一种消除外部监督的后训练方法——Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7%，在SkyWork-RM上超越16%，训练后的策略在OLMo3-Adapt基准测试中达到69.3%。

🟡 🤖 模型 2026年5月6日 · 1 分钟阅读

Google: Gemini API File Search 扩展至图像和文本的多模态搜索

Google 将 Gemini API 中的 File Search 扩展至多模态搜索，通过 gemini-embedding-2 模型实现图像和文本文档的原生嵌入和检索。新增两个 grounding 字段及针对 Batch API 的事件驱动 webhook 支持。

🟡 🤖 模型 2026年5月6日 · 2 分钟阅读

Microsoft Research: DroidSpeak 在微调 LLM 变体间共享 KV 缓存，实现 4× 更高吞吐量

Microsoft Research 在 NSDI 2026 上展示了 DroidSpeak，这是一个在架构相同的微调 LLM 变体之间共享 KV 缓存的系统，在拥有数十个领域模型的企业场景中实现了最高 4× 的吞吐量提升，同时质量下降极小。

📦 开源 (1)

🔴 📦 开源 2026年5月6日 · 2 分钟阅读

Allen Institute: MolmoAct 2 是首个开源机器人基础模型，超越 GPT-5 和 Gemini 2.5 Pro

编辑插图：实验室中装有 Franka 机械臂的双手机器人正打开一个箱子，象征开源 MolmoAct 2 基础模型

MolmoAct 2 是 Allen Institute for AI 于 5 月 5 日发布的开源机器人基础模型。该模型在具身推理基准测试中达到 63.8/100，超越 GPT-5 和 Gemini 2.5 Pro，推理速度提升 37 倍，是首个内置双臂协调能力的基础模型。

⚖️ 监管 (2)

🟡 ⚖️ 监管 2026年5月6日 · 2 分钟阅读

arXiv:2605.04039: 临床LLM的安全性与准确性遵循不同的缩放定律

新研究表明，临床LLM的安全性与准确性不遵循相同的缩放定律——RAG中更清晰的证据将准确率从73.5%提升至94.1%，高风险错误从12%降至2.6%，效果优于增大模型规模。

🟡 ⚖️ 监管 2026年5月6日 · 1 分钟阅读

UK AISI: 与 Microsoft 签署前沿 AI 安全 3 个领域合作备忘录

英国 AI 安全研究所于 5 月 5 日宣布与 Microsoft 开展前沿 AI 安全合作。合作涵盖三个研究领域：高风险能力评估、防护措施测试以及对话式 AI 社会韧性研究。

🤝 智能体 (4)

🟡 🤝 智能体 2026年5月6日 · 2 分钟阅读

Anthropic: 10 款现成金融服务代理模板 + Claude Opus 4.7 在 Vals AI Finance 基准测试中达到 64.37%

Anthropic 发布 10 款现成金融服务代理模板，包括 pitchbook 生成器、KYC 筛查器和月末结账工具。模板作为 Claude Cowork 和 Claude Code 的插件提供，Claude Opus 4.7 在 Vals AI Finance 基准测试中达到 64.37%。

🟡 🤝 智能体 2026年5月6日 · 2 分钟阅读

arXiv:2605.03675: MEMTIER — 五层记忆架构让长期智能体恢复记忆能力

MEMTIER是面向长期自主智能体的五层记忆架构——在LongMemEval-S基准测试中使用Qwen2.5-7B，准确率从0.050跃升至0.382，工具执行成功率在72小时运行后不再下降。

🟡 🤝 智能体 2026年5月6日 · 1 分钟阅读

AWS: AgentCore Browser 新增 OS 级操作——8 个新原语

编辑插图：Amazon Bedrock AgentCore 环境中代理点击浏览器边界之外的系统对话框

AWS 于 5 月 5 日为 Amazon Bedrock AgentCore Browser 发布了 OS 级操作，使代理能够与操作系统原生界面进行 DOM 范围之外的交互。引入 8 个操作和操作-截图-反应循环，无需额外配置即可使用。

🟢 🤝 智能体 2026年5月6日 · 1 分钟阅读

arXiv:2605.02503: DataClaw——面向过程的基准测试衡量 AI 代理在探索性数据分析中的过程质量

DataClaw 是一种新型基准测试，它评估 AI 代理在探索性数据分析中的完整工作过程，而不仅仅是最终答案，从而揭示那些以错误方式达到正确结果的代理的弱点。

🔧 硬件 (1)

🟡 🔧 硬件 2026年5月6日 · 1 分钟阅读

AMD: FarSkip-Collective 将 AMD GPU 上的 MoE 推理速度提升 18–34%

AMD ROCm 团队推出了 FarSkip-Collective，这是一种改进的 MoE 架构，可消除专家并行通信期间的 GPU 空闲时间。结果：Llama-4 Scout 的 TTFT 减少 18%，DeepSeek-V3 速度提升最高 1.34×，Moonlight 预训练阶段加速 11%。

🏥 实践应用 (2)

🟡 🏥 实践应用 2026年5月6日 · 1 分钟阅读

IBM: Enterprise Advantage新增Context Studio——Providence Health将招聘管理时间缩短90%

编辑插图：IBM Enterprise Advantage Context Studio，基于组织数据构建AI代理

IBM扩展了Enterprise Advantage平台，推出Context Studio——一款基于组织自有数据构建AI代理并保护数字主权的工具。Providence Health将招聘管理时间缩短90%，IBM预计18个月内运营成本降低25%以上。

🟢 🏥 实践应用 2026年5月6日 · 1 分钟阅读

Anthropic: Claude Code v2.1.131 — Windows VS Code激活和Mantle x-api-key热修复

编辑插图：Claude Code v2.1.131热修复，针对Windows VS Code和Mantle认证

Anthropic发布了Claude Code v2.1.131热修复版本，解决了两个错误：Windows上因硬编码构建路径导致VS Code扩展激活失败，以及向Mantle推理端点缺少x-api-key请求头。所有主要平台均已发布二进制版本。

💬 社区 (1)

🟢 💬 社区 2026年5月6日 · 1 分钟阅读

CNCF: 46.7%的云原生团队仍在运行2-3个并行可观测性技术栈

CNCF发布了针对407名云原生专家的2月调查，显示46.7%的组织仍在并行运行两到三个可观测性工具，只有7.4%实现了统一。仪表盘和告警配置是最大挑战，OpenTelemetry以集成枢纽地位领先。

🛡️ 安全 (1)

🟡 🛡️ 安全 2026年5月6日 · 1 分钟阅读

GitHub: 通过 MCP 服务器的密钥扫描正式发布——AI 代理在提交前检测凭据

GitHub 宣布通过 GitHub MCP 服务器的密钥扫描正式发布（GA），这一工具为 AI 编程代理和开发环境提供了在代码进入代码库之前检测暴露凭据的能力。

← 前一天后一天 →