SciCrafter：GPT-5.2・Gemini 3・Opus 4.5が26%で停滞

SciCrafterはMinecraftベースの新しいベンチマーク（benchmark）で、AIエージェント（agent）が因果的パターンを発見し、それを機能的なシステムに応用する能力——完全な「発見から応用（discovery-to-application）」ループ——をテストします。GPT-5.2、Gemini 3 Pro、Claude Opus 4.5はいずれも約26%の成功率で頭打ちになっています。研究者はこのループを4つの能力に分解し、ボトルネックが問題解決から適切な質問の設定へと移行していることを示しました。これは次世代エージェント設計にとって重要なシグナルです。

Yitao Liang、Demetri Terzopoulos、Ying Nian Wuを含む12人の著者が2026年4月27日にSciCrafter論文（arXiv:2604.24697）を発表しました。これはMinecraftベースのベンチマーク（benchmark）で、LMArena、MMLU、Chatbot Arenaなどの主流ベンチマークが実質的にテストしていない能力を測定します。AIエージェント（agent）が因果的パターンを発見し、それを機能的な構築物に応用する能力です。これは完全な**発見から応用（discovery-to-application）**ループであり、フロンティアモデルはここで頭打ちになっています。

テストはどのように設計されているか？

エージェントはパラメーター化されたレッドストーン回路（Minecraftのロジック）の構築タスクを受け取ります。指定された構成のランプを同時に、または時間的な順序で点灯させるものです。目標パラメーター（ランプの数、必要なタイミング）のスケーリングにより、構築の複雑さと技術的知識の要件が増加し、エージェントが事前学習から「答えを暗記」するだけでは対応できないようになっています。テストは真の発見コンポーネントを強制し、パターンマッチングではありません。

どのモデルをテストし、結果はどうだったか？

汎用コードエージェントスキャフォールド（general-purpose code agent scaffold）下でのフロンティア評価：GPT-5.2、Gemini 3 Pro、Claude Opus 4.5。3モデルすべてが約26%の成功率で頭打ちになっています。モデル間の差異は再現性のノイズよりも小さく、問題は個別のモデルではなく、アプローチ全体のクラスにあることを示しています。

なぜこれが重要なシグナルなのか？

研究者は発見から応用へのループを4つの能力に分解しました。知識ギャップの識別、実験的発見、知識の統合、知識の応用です。ターゲットを絞った介入実験でそれぞれの貢献を測定しています。主要な発見：フロンティアモデルにとって最大の障壁はもはや知識の応用（古典的な「このアルゴリズムを知らない」）ではなく、知識ギャップの識別——モデルが自分が知らないことを知らず、どんな質問をすべきかを把握していないことです。著者の言葉を借りれば、「ボトルネックは問題を正しく解くことから、正しい問題を立てることへと移行した」。これは次世代のエージェントシステムの設計に直接影響します。ツール使用（tool-use）やReAct ループはエージェントが何を探すかを知っていることを前提としていますが、SciCrafterはこれが無条件の前提ではないことを示しています。ベンチマークはオープンな診断ツールとして公開されています。

よくある質問

「発見から応用のギャップ（discovery-to-application gap）」とは何ですか？

エージェント（agent）が因果的パターン（例：レッドストーン回路のタイミングロジック）を発見し、それを機能的なシステム（例：指定パターンでのランプ点灯）の構築に応用するループのことです。発見能力と実行能力の組み合わせを測定するもので、従来のLLMベンチマークではほとんど評価されていません。

研究者が特定した主要なボトルネックは何ですか？

フロンティアモデル（GPT-5.2、Gemini 3 Pro、Claude Opus 4.5）にとって、最大の新たなボトルネックは「知識ギャップ識別（knowledge gap identification）」です——エージェントが自分が知らないことを認識し、どんな質問をすべきかを判断する能力のことです。「正しく解決する」から「正しい問いを立てる」へのシフトです。

arXiv:2604.24697：SciCrafterが示すGPT-5.2、Gemini 3 Pro、Claude Opus 4.5がMinecraftの「発見から応用」テストで約26%で頭打ちに

テストはどのように設計されているか？

どのモデルをテストし、結果はどうだったか？

なぜこれが重要なシグナルなのか？

よくある質問

出典

関連ニュース