SciCrafter：GPT-5.2、Gemini 3、Opus 4.5均停在26%

SciCrafter是一个基于Minecraft的新基准测试（benchmark），评估AI智能体（agent）发现因果规律并将其应用于功能性系统的能力——即完整的「发现到应用（discovery-to-application）」闭环。GPT-5.2、Gemini 3 Pro和Claude Opus 4.5的成功率均停滞于约26%。研究者将这一闭环分解为四项能力，发现瓶颈从解决问题转移到了正确提问——这是下一代智能体设计的关键信号。

12位作者（包括Yitao Liang、Demetri Terzopoulos、Ying Nian Wu）于2026年4月27日发表了SciCrafter论文（arXiv:2604.24697）——一个基于Minecraft的基准测试（benchmark），专门测量LMArena、MMLU和Chatbot Arena等主流基准实际上未能测试的能力：AI智能体（agent）发现因果规律并将其应用于功能性构建的能力。这是完整的**发现到应用（discovery-to-application）**闭环，而前沿模型在这一任务上陷入停滞。

测试是如何设计的？

智能体接收参数化的红石电路（Minecraft逻辑）构建任务：同时点亮或按时间序列点亮指定灯泡配置。通过扩展目标参数（灯泡数量、所需时序），构建复杂度和技术知识要求随之提升，从而防止智能体仅凭预训练记忆「背答案」。测试强制要求真正的发现组件，而非模式匹配。

测试了哪些模型，结果如何？

在通用代码智能体框架（general-purpose code agent scaffold）下评估的前沿模型：GPT-5.2、Gemini 3 Pro和Claude Opus 4.5。三者均停滞于约26%的成功率。模型间的差异小于复现噪声——这意味着问题不在于某个具体模型，而在于整类方法。

为什么这是重要信号？

研究者将发现到应用闭环分解为四项能力：知识空白识别、实验性发现、知识整合和知识应用。通过有针对性的干预实验测量每项能力的贡献。核心发现：对于前沿模型而言，最大障碍不再是知识应用（传统意义上的「不会这个算法」），而是知识空白识别——模型不知道自己不知道什么，也不知道应该提出什么问题。用作者的话说：“瓶颈从正确解决问题转移到了提出正确的问题。“这直接影响下一代智能体系统的设计方向：工具调用（tool-use）和ReAct循环的前提是智能体知道要找什么——而SciCrafter表明这并非无条件成立的假设。该基准测试已作为开放诊断工具发布。

常见问题

「发现到应用差距（discovery-to-application gap）」是什么意思？

这是一个闭环，智能体（agent）必须发现因果规律（例如红石电路的时序逻辑），并将其应用于构建功能性系统（例如按指定模式点亮灯泡）。它衡量的是发现能力与执行能力的结合——这正是传统LLM基准测试所欠缺的测量维度。

研究者识别出的主要瓶颈是什么？

对于前沿模型（GPT-5.2、Gemini 3 Pro、Claude Opus 4.5），最大的新瓶颈是「知识空白识别（knowledge gap identification）」——即智能体识别自己不知道什么、以及究竟应该提出什么问题的能力。核心转变是：从「正确解决问题」到「提出正确的问题」。

arXiv:2604.24697：SciCrafter显示GPT-5.2、Gemini 3 Pro和Claude Opus 4.5在Minecraft「发现到应用」测试中均停滞于约26%

测试是如何设计的？

测试了哪些模型，结果如何？

为什么这是重要信号？

常见问题

来源

相关新闻