🟡 🤝 智能体 2026年4月28日星期二 · 2 分钟阅读

arXiv:2604.24697:SciCrafter显示GPT-5.2、Gemini 3 Pro和Claude Opus 4.5在Minecraft「发现到应用」测试中均停滞于约26%

arXiv:2604.24697 ↗

编辑插图:像素风格的电路和灯泡呈现Minecraft美学,代表发现过程和前沿AI模型的基准测试

为什么重要

SciCrafter是一个基于Minecraft的新基准测试(benchmark),评估AI智能体(agent)发现因果规律并将其应用于功能性系统的能力——即完整的「发现到应用(discovery-to-application)」闭环。GPT-5.2、Gemini 3 Pro和Claude Opus 4.5的成功率均停滞于约26%。研究者将这一闭环分解为四项能力,发现瓶颈从解决问题转移到了正确提问——这是下一代智能体设计的关键信号。

12位作者(包括Yitao Liang、Demetri Terzopoulos、Ying Nian Wu)于2026年4月27日发表了SciCrafter论文(arXiv:2604.24697)——一个基于Minecraft的基准测试(benchmark),专门测量LMArena、MMLU和Chatbot Arena等主流基准实际上未能测试的能力:AI智能体(agent)发现因果规律将其应用于功能性构建的能力。这是完整的**发现到应用(discovery-to-application)**闭环,而前沿模型在这一任务上陷入停滞。

测试是如何设计的?

智能体接收参数化的红石电路(Minecraft逻辑)构建任务:同时点亮或按时间序列点亮指定灯泡配置。通过扩展目标参数(灯泡数量、所需时序),构建复杂度和技术知识要求随之提升,从而防止智能体仅凭预训练记忆「背答案」。测试强制要求真正的发现组件,而非模式匹配。

测试了哪些模型,结果如何?

通用代码智能体框架(general-purpose code agent scaffold)下评估的前沿模型:GPT-5.2Gemini 3 ProClaude Opus 4.5。三者均停滞于约26%的成功率。模型间的差异小于复现噪声——这意味着问题不在于某个具体模型,而在于整类方法。

为什么这是重要信号?

研究者将发现到应用闭环分解为四项能力:知识空白识别实验性发现知识整合知识应用。通过有针对性的干预实验测量每项能力的贡献。核心发现:对于前沿模型而言,最大障碍不再是知识应用(传统意义上的「不会这个算法」),而是知识空白识别——模型不知道自己不知道什么,也不知道应该提出什么问题。用作者的话说:“瓶颈从正确解决问题转移到了提出正确的问题。“这直接影响下一代智能体系统的设计方向:工具调用(tool-use)和ReAct循环的前提是智能体知道要找什么——而SciCrafter表明这并非无条件成立的假设。该基准测试已作为开放诊断工具发布。

🤖

本文由人工智能基于一手来源生成。