arXiv CUSP：AI无法预测科学突破（2026年5月）

CUSP基准测试用4,700个事件的数据库测试AI模型预测科学突破的能力。前沿模型（GPT-5、Claude Opus 4.7、Gemini 3 Pro）能识别合理的研究方向，但系统性地以过高置信度猜测结果和时机。额外的截止前上下文并无帮助——限制是结构性的，而非信息性的。

2026年5月21日发布的arXiv预印本介绍了CUSP（精选科学预测），这是一个评估AI模型预测科学突破能力的基准测试。数据库包含四个领域的4,700个科学事件：生物医学、物理学、气候学和AI研究。前沿模型——GPT-5、Claude Opus 4.7和Gemini 3 Pro——在使用截止前上下文（事件结果已知之前所有公开信息）的情况下，被测试分配每个事件的结果概率的能力。

CUSP如何设计问题？

数据库中4,700个事件中的每一个都被表述为已知结果的二元问题：“mRNA疟疾疫苗在2024年10月前的3期临床试验中是否会达到>70%的有效性？""参数量≥1T的开源LLM是否会在2025年12月前发布？""大气CO₂浓度是否会在2024年12月前超过425ppm？”

模型获得截止日期前所有公开信息的访问权（结果已知之前的日期），并被要求评估”是”结果的概率。性能用Brier分数（校准+判别）和校准曲线来衡量，该曲线显示预测与实际结果频率的吻合程度。

前沿模型的结果是什么？

三个前沿模型的Brier分数均在0.18至0.21之间（越低越好，完美为0）。作为比较，朴素的「始终50%」基线给出0.25，人类领域专家平均为0.14。模型明显优于随机，但落后于人类专家。

主要问题是过度置信。模型以90%的置信度标记一个预测，但这类预测的实际成功率为60-70%。在95-99%置信度范围内（模型声称几乎确定时），GPT-5的实际成功率降至65%，Claude Opus 4.7降至71%。这意味着当模型说「几乎肯定会发生」时，实际上应该将其视为约70%的概率。

“结构性限制”意味着什么？

作者测试了额外的截止前上下文是否有帮助。他们向模型提供了额外的相关arXiv论文、新闻档案和专家评论——全部是截止前的，因此没有「泄露」实际结果。性能没有显著改善。Brier分数从0.21降至0.19——边际差异。

作者解释这表明限制不是信息匮乏。限制是结构性的：模型无法区分「科学上合理」和「实际会发生」。当模型读取50篇关于有希望的mRNA疟疾疫苗的论文时，它能检测到合理性，但无法评估运营障碍——3期试验需要多长时间、FDA将如何回应、赞助商是否有规模化的预算。这些信息存在于公共领域，但不是模型知道如何提取的格式。

这对AI在科学中的应用意味着什么？

AI辅助预测的实际影响是具体的。首先，不要依赖AI的点概率估计——应该使用AI识别相关信号（论文、数据、专家声明），并让人类预测者进行整合。其次，如果使用AI进行预测，必须额外验证校准——说「90%置信度」的模型应被解读为「70%」，直到证明更好为止。

第三，作者建议在科学预测中使用结构化提示，明确要求模型列举预测为什么可能不会发生的障碍和原因——这有助于减少过度置信，尽管不能消除问题。

作者宣布CUSP将每季度更新新事件，并将对所有前沿模型公开发布结果。

常见问题

什么是CUSP基准测试？

CUSP（精选科学预测）是一个拥有4,700个科学事件的基准测试，涵盖生物医学、物理学、气候学和AI研究。每个事件被表述为一个已知结果的二元问题（X是否会在Y之前发生）——模型获得截止前的上下文并评估概率。

过度置信（overconfidence）意味着什么？

当模型以高概率（如90%）对其预测进行排名，但这些预测的实际成功率较低（如60%）时，模型就存在过度置信。前沿模型在CUSP上表现出系统性的过度置信——在70-95%置信度类别中校准效果较差。

为什么额外的上下文没有帮助？

作者测试了提供额外的截止前论文、新闻文章和数据——性能没有显著改善。结论：限制不是信息匮乏，而是模型无法区分「科学上合理」和「实际会发生」的结构性无能。

arXiv:2605.22681：CUSP基准测试显示前沿模型无法可靠预测科学突破

CUSP如何设计问题？

前沿模型的结果是什么？

“结构性限制”意味着什么？

这对AI在科学中的应用意味着什么？

常见问题

来源

相关新闻