2026年5月2日星期六

9 条新闻 — 🔴 2 重要 , 🟡 4 值得关注 , 🟢 3 有趣

← 前一天 后一天 →

🤖 模型 (4)

🟡 🤖 模型 2026年5月2日 · 2 分钟阅读

Latent-GRPO:面向潜在推理的稳定 RL 优化——GSM8K-Aug 上提升 7.86 分、AIME 上提升 4.27 分,推理链长度缩短 3-4 倍

Editorial illustration: kompresija mreže rezoniranja u sažeti latentni prostor

研究人员提出 Latent-GRPO,一种针对潜在推理(推理步骤被压缩为连续表示)的稳定化 RL 方法。他们识别出在潜在空间中直接应用 GRPO 的三个根本性问题——无效潜在状态、奖励信号与 token 更新之间的错位、以及无效的平均状态——并通过无效样本优势屏蔽、单边噪声采样和最优正确路径首 token 选择的组合加以解决。结果:GSM8K-Aug 上 Pass@1 提升 7.86 分,AIME 上提升 4.27 分,推理链长度缩短 3-4 倍。

🟡 🤖 模型 2026年5月2日 · 2 分钟阅读

GitHub将于2026年6月1日从Copilot中弃用GPT-5.2和GPT-5.2-Codex——迁移至GPT-5.5和GPT-5.3-Codex

Editorial illustration: GitHub Copilot dashboard s novim modelom koji zamjenjuje stari

GitHub宣布将于2026年6月1日从所有Copilot体验中弃用GPT-5.2和GPT-5.2-Codex模型。Chat、内联编辑、ask和agent模式以及代码补全用户将迁移至GPT-5.5,而Codex用户将迁移至GPT-5.3-Codex。唯一例外是Copilot Code Review,其中GPT-5.2-Codex将继续可用。企业管理员必须在截止日期前在模型策略中手动启用新模型。

🟡 🤖 模型 2026年5月2日 · 2 分钟阅读

NIST CAISI对DeepSeek V4 Pro的评估:在5个领域9个基准测试中落后美国前沿模型8个月

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

NIST下属的AI标准与创新中心(CAISI)对中国模型DeepSeek V4 Pro进行了独立评估,涵盖5个领域的9个基准测试(网络安全、软件工程、自然科学、抽象推理、数学)。核心发现:V4落后美国前沿模型约8个月,尤其在推理和代理任务方面——这些是DeepSeek未纳入其自身技术报告的领域。在7项测试中的5项,其使用成本低于GPT-5.4 mini。

🟢 🤖 模型 2026年5月2日 · 1 分钟阅读

KellyBench:AI代理管理Premier League赛季投注资金——所有顶级模型均亏损

Editorial illustration: nogometni stadion s digitalnom analizom kvota

KellyBench是一个用于测试序贯决策能力的新基准:AI代理使用统计数据、阵容和市场赔率,在整个2023/24赛季Premier League期间管理投注资金。所有被测试的顶级模型均亏损,Claude Opus 4.6在专家策略复杂性评分中获得了26.5%。

🤝 智能体 (2)

💬 社区 (1)

🛡️ 安全 (2)

← 前一天 后一天 →