🟡 🏥 实践应用 发布于: · 2 分钟阅读 ·

arXiv:2605.22681:CUSP基准测试显示前沿模型无法可靠预测科学突破

arXiv:2605.22681 ↗

编辑插图:科学曲线突破点与未能预测的AI系统

CUSP基准测试用4,700个事件的数据库测试AI模型预测科学突破的能力。前沿模型(GPT-5、Claude Opus 4.7、Gemini 3 Pro)能识别合理的研究方向,但系统性地以过高置信度猜测结果和时机。额外的截止前上下文并无帮助——限制是结构性的,而非信息性的。

🤖

本文由人工智能基于一手来源生成。

2026年5月21日发布的arXiv预印本介绍了CUSP(精选科学预测),这是一个评估AI模型预测科学突破能力的基准测试。数据库包含四个领域的4,700个科学事件:生物医学、物理学、气候学和AI研究。前沿模型——GPT-5、Claude Opus 4.7和Gemini 3 Pro——在使用截止前上下文(事件结果已知之前所有公开信息)的情况下,被测试分配每个事件的结果概率的能力。

CUSP如何设计问题?

数据库中4,700个事件中的每一个都被表述为已知结果的二元问题:“mRNA疟疾疫苗在2024年10月前的3期临床试验中是否会达到>70%的有效性?""参数量≥1T的开源LLM是否会在2025年12月前发布?""大气CO₂浓度是否会在2024年12月前超过425ppm?”

模型获得截止日期前所有公开信息的访问权(结果已知之前的日期),并被要求评估”是”结果的概率。性能用Brier分数(校准+判别)和校准曲线来衡量,该曲线显示预测与实际结果频率的吻合程度。

前沿模型的结果是什么?

三个前沿模型的Brier分数均在0.18至0.21之间(越低越好,完美为0)。作为比较,朴素的「始终50%」基线给出0.25,人类领域专家平均为0.14。模型明显优于随机,但落后于人类专家。

主要问题是过度置信。模型以90%的置信度标记一个预测,但这类预测的实际成功率为60-70%。在95-99%置信度范围内(模型声称几乎确定时),GPT-5的实际成功率降至65%,Claude Opus 4.7降至71%。这意味着当模型说「几乎肯定会发生」时,实际上应该将其视为约70%的概率。

“结构性限制”意味着什么?

作者测试了额外的截止前上下文是否有帮助。他们向模型提供了额外的相关arXiv论文、新闻档案和专家评论——全部是截止前的,因此没有「泄露」实际结果。性能没有显著改善。Brier分数从0.21降至0.19——边际差异。

作者解释这表明限制不是信息匮乏。限制是结构性的:模型无法区分「科学上合理」和「实际会发生」。当模型读取50篇关于有希望的mRNA疟疾疫苗的论文时,它能检测到合理性,但无法评估运营障碍——3期试验需要多长时间、FDA将如何回应、赞助商是否有规模化的预算。这些信息存在于公共领域,但不是模型知道如何提取的格式。

这对AI在科学中的应用意味着什么?

AI辅助预测的实际影响是具体的。首先,不要依赖AI的点概率估计——应该使用AI识别相关信号(论文、数据、专家声明),并让人类预测者进行整合。其次,如果使用AI进行预测,必须额外验证校准——说「90%置信度」的模型应被解读为「70%」,直到证明更好为止。

第三,作者建议在科学预测中使用结构化提示,明确要求模型列举预测为什么可能不会发生的障碍和原因——这有助于减少过度置信,尽管不能消除问题。

作者宣布CUSP将每季度更新新事件,并将对所有前沿模型公开发布结果。

常见问题

什么是CUSP基准测试?
CUSP(精选科学预测)是一个拥有4,700个科学事件的基准测试,涵盖生物医学、物理学、气候学和AI研究。每个事件被表述为一个已知结果的二元问题(X是否会在Y之前发生)——模型获得截止前的上下文并评估概率。
过度置信(overconfidence)意味着什么?
当模型以高概率(如90%)对其预测进行排名,但这些预测的实际成功率较低(如60%)时,模型就存在过度置信。前沿模型在CUSP上表现出系统性的过度置信——在70-95%置信度类别中校准效果较差。
为什么额外的上下文没有帮助?
作者测试了提供额外的截止前论文、新闻文章和数据——性能没有显著改善。结论:限制不是信息匮乏,而是模型无法区分「科学上合理」和「实际会发生」的结构性无能。