OpenAI: GPT-5.5 Instant 成为 ChatGPT 新默认模型,减少幻觉
GPT-5.5 Instant 是 OpenAI 于 2026 年 5 月 5 日推出的新 ChatGPT 默认模型。该模型带来更智能、更精确的回答,减少幻觉并提升个性化能力,同时附带系统卡片一并发布。
16 条新闻 — 🔴 2 重要 , 🟡 11 值得关注 , 🟢 3 有趣
GPT-5.5 Instant 是 OpenAI 于 2026 年 5 月 5 日推出的新 ChatGPT 默认模型。该模型带来更智能、更精确的回答,减少幻觉并提升个性化能力,同时附带系统卡片一并发布。
EvoLM是一种消除外部监督的后训练方法——Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7%,在SkyWork-RM上超越16%,训练后的策略在OLMo3-Adapt基准测试中达到69.3%。
Google 将 Gemini API 中的 File Search 扩展至多模态搜索,通过 gemini-embedding-2 模型实现图像和文本文档的原生嵌入和检索。新增两个 grounding 字段及针对 Batch API 的事件驱动 webhook 支持。
Microsoft Research 在 NSDI 2026 上展示了 DroidSpeak,这是一个在架构相同的微调 LLM 变体之间共享 KV 缓存的系统,在拥有数十个领域模型的企业场景中实现了最高 4× 的吞吐量提升,同时质量下降极小。
Anthropic 发布 10 款现成金融服务代理模板,包括 pitchbook 生成器、KYC 筛查器和月末结账工具。模板作为 Claude Cowork 和 Claude Code 的插件提供,Claude Opus 4.7 在 Vals AI Finance 基准测试中达到 64.37%。
MEMTIER是面向长期自主智能体的五层记忆架构——在LongMemEval-S基准测试中使用Qwen2.5-7B,准确率从0.050跃升至0.382,工具执行成功率在72小时运行后不再下降。
AWS 于 5 月 5 日为 Amazon Bedrock AgentCore Browser 发布了 OS 级操作,使代理能够与操作系统原生界面进行 DOM 范围之外的交互。引入 8 个操作和操作-截图-反应循环,无需额外配置即可使用。
DataClaw 是一种新型基准测试,它评估 AI 代理在探索性数据分析中的完整工作过程,而不仅仅是最终答案,从而揭示那些以错误方式达到正确结果的代理的弱点。
IBM扩展了Enterprise Advantage平台,推出Context Studio——一款基于组织自有数据构建AI代理并保护数字主权的工具。Providence Health将招聘管理时间缩短90%,IBM预计18个月内运营成本降低25%以上。
Anthropic发布了Claude Code v2.1.131热修复版本,解决了两个错误:Windows上因硬编码构建路径导致VS Code扩展激活失败,以及向Mantle推理端点缺少x-api-key请求头。所有主要平台均已发布二进制版本。