arXiv CUSP：AIは科学的ブレークスルーを予測できない

CUSPベンチマークは4,700件のイベントのデータベースでAIモデルが科学的ブレークスルーを予測する能力をテストします。フロンティアモデル（GPT-5、Claude Opus 4.7、Gemini 3 Pro）はもっともらしい研究方向を特定しますが、過剰な信頼度で体系的に結果とタイミングを推測します。追加の締め切り前コンテキストは役立ちません——制限は情報的なものではなく構造的なものです。

2026年5月21日に公開されたarXivプレプリントはCUSP（精選科学予測）を紹介しています。これはAIモデルが科学的ブレークスルーを予測する能力を評価するベンチマークです。データベースには4つのドメインから4,700の科学的事象が含まれています：生物医学、物理学、気候学、AI研究。フロンティアモデル——GPT-5、Claude Opus 4.7、Gemini 3 Pro——が締め切り前のコンテキスト（結果が知られる前に公開されていたすべての情報）を使って各事象の結果確率を割り当てる能力をテストしました。

CUSPはどのように問題を定式化するか？

データベースの4,700の各事象は、既知の結果を持つ二値問題として定式化されています：「mRNAマラリアワクチンは2024年10月までにフェーズ3で>70%の有効性を達成するか？」「パラメータ数≥1TのオープンソースLLMは2025年12月までに公開されるか？」「大気CO₂濃度は2024年12月までに425ppmを超えるか？」

モデルは締め切り日（結果が知られる前の日付）までに公開されたすべての情報へのアクセスを受け取り、「はい」の結果の確率を評価するよう求められます。パフォーマンスはBrierスコア（キャリブレーション+識別力）と、予測が実際の結果の頻度とどれだけ一致しているかを示すキャリブレーション曲線で測定されます。

フロンティアモデルの結果は何か？

3つのフロンティアモデルはすべてBrierスコア0.18〜0.21（低いほど良く、完璧は0）を達成しています。比較として、素朴な「常に50%」ベースラインは0.25を与え、人間のドメインエキスパートの平均は0.14です。モデルは偶然より有意に優れていますが、人間の専門家には劣ります。

主な病理はoverconfidenceです。モデルは予測を90%の信頼度でマークしますが、そのような予測の実際の成功率は60-70%です。95-99%の信頼度範囲（モデルがほぼ確実と主張する場合）では、実際の成功率はGPT-5で65%、Claude Opus 4.7で71%に低下します。つまり、モデルが「ほぼ確実に起こる」と言うとき、実際には約70%の確率として数える必要があります。

「制限は構造的」とはどういう意味か？

著者らは追加の締め切り前コンテキストが役立つかどうかをテストしました。追加の関連arXiv論文、ニュースアーカイブ、専門家コメントをモデルに提供しました——すべて締め切り前のものなので、実際の結果が「漏れた」ものは何もありません。パフォーマンスは有意に改善しませんでした。Brierスコアは0.21から0.19に低下——わずかな差異です。

著者らはこれを、制限が情報の不足ではないと解釈しています。制限は構造的です：モデルは「科学的にもっともらしい」と「実際に起こる」の違いを認識しません。モデルが有望なmRNAマラリアワクチンについての50の論文を読むとき、それはもっともらしさを検出しますが、運営上の障壁を評価できません——フェーズ3がどれくらいかかるか、FDAがどう対応するか、スポンサーがスケールアップの予算を持っているか。この情報は公共の領域に存在しますが、モデルが抽出する方法を知らない形式です。

これは科学へのAI活用をどう変えるか？

AI支援予測の実際的な影響は具体的です。第一に、AIの点確率推定に依存すべきではありません——AIを使って関連シグナル（論文、データ、専門家の声明）を特定し、統合は人間の予測者に任せましょう。第二に、予測にAIを使う場合、キャリブレーションを追加で検証する必要があります——「90%の信頼度」と言うモデルは、より良いことが示されるまで「70%」として解釈すべきです。

第三に、著者らは科学的予測には、なぜ予測が起こらないかもしれない障壁と理由をモデルに明示的に列挙させる構造化プロンプティングを使用することを提案しています——これはoverconfidenceを減らすのに役立ちますが、問題を排除するわけではありません。

著者らはCUSPを四半期ごとに新しい事象で更新し、すべてのフロンティアモデルの結果を公開発表することを発表しました。

よくある質問

CUSPベンチマークとは何ですか？

CUSP（精選科学予測）は生物医学、物理学、気候学、AI研究から4,700の科学的事象を含むベンチマークです。各事象は既知の結果を持つ二値問題として定式化されています（XはYまでに起こるか）——モデルは締め切り前のコンテキストを受け取り確率を評価します。

過剰な信頼度（overconfidence）とは何を意味しますか？

モデルが予測を高い確率（例：90%）でランク付けするが、それらの予測の実際の成功率が低い（例：60%）場合、モデルは過剰な信頼度を示します。フロンティアモデルはCUSPで体系的なoverconfidenceを示します——70-95%の信頼度カテゴリでのキャリブレーションが悪いです。

なぜ追加のコンテキストが役立たないのですか？

著者らは追加の締め切り前の論文、ニュース記事、データを提供してテストしましたが、パフォーマンスは有意に改善しませんでした。結論：制限は情報の不足ではなく、モデルが「科学的にもっともらしい」と「実際に起こる」の違いを認識できないという構造的な無能さです。

arXiv:2605.22681：CUSPベンチマークがフロンティアモデルは科学的ブレークスルーを信頼できるほど予測できないことを示す

CUSPはどのように問題を定式化するか？

フロンティアモデルの結果は何か？

「制限は構造的」とはどういう意味か？

これは科学へのAI活用をどう変えるか？

よくある質問

出典

関連ニュース