SciCrafter：GPT-5.2, Gemini 3, Opus 4.5 모두 26%에 정체

SciCrafter는 Minecraft 기반의 새로운 벤치마크(benchmark)로, AI 에이전트(agent)가 인과적 패턴을 발견하고 이를 기능적 시스템에 적용하는 능력——즉 완전한 「발견에서 응용(discovery-to-application)」 루프——을 테스트합니다. GPT-5.2, Gemini 3 Pro, Claude Opus 4.5는 모두 약 26%의 성공률에서 정체됩니다. 연구자들은 이 루프를 네 가지 능력으로 분해하여 병목이 문제 해결에서 올바른 질문 설정으로 이동하고 있음을 보였으며, 이는 차세대 에이전트 설계를 위한 핵심 신호입니다.

Yitao Liang, Demetri Terzopoulos, Ying Nian Wu를 포함한 12명의 저자들이 2026년 4월 27일 SciCrafter 논문(arXiv:2604.24697)을 발표하였습니다. 이는 Minecraft 기반의 벤치마크(benchmark)로, LMArena, MMLU, Chatbot Arena 등 주류 벤치마크가 사실상 테스트하지 않는 능력을 측정합니다. AI 에이전트(agent)가 인과적 패턴을 발견하고 이를 기능적 구조물에 적용하는 능력입니다. 이는 완전한 발견에서 응용(discovery-to-application) 루프이며, 프론티어 모델들은 이 과제에서 정체를 보이고 있습니다.

테스트는 어떻게 설계되었습니까?

에이전트들은 매개변수화된 레드스톤 회로(Minecraft 로직) 구축 과제를 받습니다. 지정된 구성의 램프를 동시에 또는 시간 순서에 따라 점등시키는 것입니다. 목표 매개변수(램프 수, 필요한 타이밍)의 확장은 필요한 구축 복잡성과 기술적 지식을 증가시켜, 에이전트가 단순히 사전 학습에서 답을 「암기」하는 것을 방지합니다. 테스트는 진정한 발견 구성 요소를 강제하며 패턴 매칭이 아닙니다.

어떤 모델을 테스트하였으며 결과는 어떠하였습니까?

범용 코드 에이전트 스캐폴드(general-purpose code agent scaffold) 하에서의 프론티어 평가: GPT-5.2, Gemini 3 Pro, Claude Opus 4.5. 세 모델 모두 약 26%의 성공률에서 정체됩니다. 모델 간 차이는 재현성 노이즈보다 작으며, 이는 개별 모델의 문제가 아니라 접근 방식 전체 클래스의 문제임을 의미합니다.

왜 이것이 중요한 신호입니까?

연구자들은 발견에서 응용으로의 루프를 네 가지 능력으로 분해하였습니다. 지식 격차 식별, 실험적 발견, 지식 통합, 지식 적용입니다. 표적화된 개입을 통해 각각의 기여도를 측정하였습니다. 핵심 발견: 프론티어 모델에 있어 가장 큰 장벽은 더 이상 지식 적용(고전적인 「이 알고리즘을 모른다」)이 아니라 지식 격차 식별입니다——모델이 자신이 모르는 것을 모르고, 어떤 질문을 해야 하는지 파악하지 못하는 것입니다. 저자들의 말을 빌리면, “병목이 문제를 올바르게 해결하는 것에서 올바른 문제를 제기하는 것으로 이동하였다.” 이는 차세대 에이전트 시스템 설계에 직접적인 영향을 미칩니다. 도구 사용(tool-use)과 ReAct 루프는 에이전트가 무엇을 찾아야 하는지 안다는 것을 전제로 하지만, SciCrafter는 이것이 무조건적인 전제가 아님을 보여줍니다. 벤치마크는 오픈 진단 도구로 공개되었습니다.

자주 묻는 질문

「발견에서 응용 격차(discovery-to-application gap)」란 무엇입니까?

에이전트(agent)가 인과적 패턴(예: 레드스톤 회로의 타이밍 로직)을 발견하고 이를 기능적 시스템(예: 지정된 패턴으로 램프 점등) 구축에 적용해야 하는 루프입니다. 발견 능력과 실행 능력의 결합을 측정하는 것으로, 기존 LLM 벤치마크가 거의 테스트하지 않는 영역입니다.

연구자들이 확인한 주요 병목은 무엇입니까?

프론티어 모델(GPT-5.2, Gemini 3 Pro, Claude Opus 4.5)에 있어 가장 큰 새로운 병목은 「지식 격차 식별(knowledge gap identification)」입니다——에이전트가 자신이 모르는 것을 인식하고 어떤 질문을 해야 하는지 파악하는 능력입니다. 핵심 전환은 「올바르게 해결하기」에서 「올바른 문제 제기하기」로의 이동입니다.

arXiv:2604.24697：SciCrafter, GPT-5.2·Gemini 3 Pro·Claude Opus 4.5가 Minecraft 「발견에서 응용」 테스트에서 약 26%에 정체됨을 보여줌

테스트는 어떻게 설계되었습니까?

어떤 모델을 테스트하였으며 결과는 어떠하였습니까?

왜 이것이 중요한 신호입니까?

자주 묻는 질문

출처

관련 뉴스