arXiv:2605.22681:CUSPベンチマークがフロンティアモデルは科学的ブレークスルーを信頼できるほど予測できないことを示す
CUSPベンチマークは4,700件のイベントのデータベースでAIモデルが科学的ブレークスルーを予測する能力をテストします。フロンティアモデル(GPT-5、Claude Opus 4.7、Gemini 3 Pro)はもっともらしい研究方向を特定しますが、過剰な信頼度で体系的に結果とタイミングを推測します。追加の締め切り前コンテキストは役立ちません——制限は情報的なものではなく構造的なものです。