arXiv:2604.24697:SciCrafterが示すGPT-5.2、Gemini 3 Pro、Claude Opus 4.5がMinecraftの「発見から応用」テストで約26%で頭打ちに
なぜ重要か
SciCrafterはMinecraftベースの新しいベンチマーク(benchmark)で、AIエージェント(agent)が因果的パターンを発見し、それを機能的なシステムに応用する能力——完全な「発見から応用(discovery-to-application)」ループ——をテストします。GPT-5.2、Gemini 3 Pro、Claude Opus 4.5はいずれも約26%の成功率で頭打ちになっています。研究者はこのループを4つの能力に分解し、ボトルネックが問題解決から適切な質問の設定へと移行していることを示しました。これは次世代エージェント設計にとって重要なシグナルです。
Yitao Liang、Demetri Terzopoulos、Ying Nian Wuを含む12人の著者が2026年4月27日にSciCrafter論文(arXiv:2604.24697)を発表しました。これはMinecraftベースのベンチマーク(benchmark)で、LMArena、MMLU、Chatbot Arenaなどの主流ベンチマークが実質的にテストしていない能力を測定します。AIエージェント(agent)が因果的パターンを発見し、それを機能的な構築物に応用する能力です。これは完全な**発見から応用(discovery-to-application)**ループであり、フロンティアモデルはここで頭打ちになっています。
テストはどのように設計されているか?
エージェントはパラメーター化されたレッドストーン回路(Minecraftのロジック)の構築タスクを受け取ります。指定された構成のランプを同時に、または時間的な順序で点灯させるものです。目標パラメーター(ランプの数、必要なタイミング)のスケーリングにより、構築の複雑さと技術的知識の要件が増加し、エージェントが事前学習から「答えを暗記」するだけでは対応できないようになっています。テストは真の発見コンポーネントを強制し、パターンマッチングではありません。
どのモデルをテストし、結果はどうだったか?
汎用コードエージェントスキャフォールド(general-purpose code agent scaffold)下でのフロンティア評価:GPT-5.2、Gemini 3 Pro、Claude Opus 4.5。3モデルすべてが約26%の成功率で頭打ちになっています。モデル間の差異は再現性のノイズよりも小さく、問題は個別のモデルではなく、アプローチ全体のクラスにあることを示しています。
なぜこれが重要なシグナルなのか?
研究者は発見から応用へのループを4つの能力に分解しました。知識ギャップの識別、実験的発見、知識の統合、知識の応用です。ターゲットを絞った介入実験でそれぞれの貢献を測定しています。主要な発見:フロンティアモデルにとって最大の障壁はもはや知識の応用(古典的な「このアルゴリズムを知らない」)ではなく、知識ギャップの識別——モデルが自分が知らないことを知らず、どんな質問をすべきかを把握していないことです。著者の言葉を借りれば、「ボトルネックは問題を正しく解くことから、正しい問題を立てることへと移行した」。これは次世代のエージェントシステムの設計に直接影響します。ツール使用(tool-use)やReAct ループはエージェントが何を探すかを知っていることを前提としていますが、SciCrafterはこれが無条件の前提ではないことを示しています。ベンチマークはオープンな診断ツールとして公開されています。
この記事はAIにより一次情報源から生成されました。