arXiv:2604.24697:SciCrafter显示GPT-5.2、Gemini 3 Pro和Claude Opus 4.5在Minecraft「发现到应用」测试中均停滞于约26%
SciCrafter是一个基于Minecraft的新基准测试(benchmark),评估AI智能体(agent)发现因果规律并将其应用于功能性系统的能力——即完整的「发现到应用(discovery-to-application)」闭环。GPT-5.2、Gemini 3 Pro和Claude Opus 4.5的成功率均停滞于约26%。研究者将这一闭环分解为四项能力,发现瓶颈从解决问题转移到了正确提问——这是下一代智能体设计的关键信号。
本文由人工智能基于一手来源生成。
12位作者(包括Yitao Liang、Demetri Terzopoulos、Ying Nian Wu)于2026年4月27日发表了SciCrafter论文(arXiv:2604.24697)——一个基于Minecraft的基准测试(benchmark),专门测量LMArena、MMLU和Chatbot Arena等主流基准实际上未能测试的能力:AI智能体(agent)发现因果规律并将其应用于功能性构建的能力。这是完整的**发现到应用(discovery-to-application)**闭环,而前沿模型在这一任务上陷入停滞。
测试是如何设计的?
智能体接收参数化的红石电路(Minecraft逻辑)构建任务:同时点亮或按时间序列点亮指定灯泡配置。通过扩展目标参数(灯泡数量、所需时序),构建复杂度和技术知识要求随之提升,从而防止智能体仅凭预训练记忆「背答案」。测试强制要求真正的发现组件,而非模式匹配。
测试了哪些模型,结果如何?
在通用代码智能体框架(general-purpose code agent scaffold)下评估的前沿模型:GPT-5.2、Gemini 3 Pro和Claude Opus 4.5。三者均停滞于约26%的成功率。模型间的差异小于复现噪声——这意味着问题不在于某个具体模型,而在于整类方法。
为什么这是重要信号?
研究者将发现到应用闭环分解为四项能力:知识空白识别、实验性发现、知识整合和知识应用。通过有针对性的干预实验测量每项能力的贡献。核心发现:对于前沿模型而言,最大障碍不再是知识应用(传统意义上的「不会这个算法」),而是知识空白识别——模型不知道自己不知道什么,也不知道应该提出什么问题。用作者的话说:“瓶颈从正确解决问题转移到了提出正确的问题。“这直接影响下一代智能体系统的设计方向:工具调用(tool-use)和ReAct循环的前提是智能体知道要找什么——而SciCrafter表明这并非无条件成立的假设。该基准测试已作为开放诊断工具发布。
常见问题
- 「发现到应用差距(discovery-to-application gap)」是什么意思?
- 这是一个闭环,智能体(agent)必须发现因果规律(例如红石电路的时序逻辑),并将其应用于构建功能性系统(例如按指定模式点亮灯泡)。它衡量的是发现能力与执行能力的结合——这正是传统LLM基准测试所欠缺的测量维度。
- 研究者识别出的主要瓶颈是什么?
- 对于前沿模型(GPT-5.2、Gemini 3 Pro、Claude Opus 4.5),最大的新瓶颈是「知识空白识别(knowledge gap identification)」——即智能体识别自己不知道什么、以及究竟应该提出什么问题的能力。核心转变是:从「正确解决问题」到「提出正确的问题」。