arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
Zašto je bitno
SciCrafter je novi Minecraft-bazirani benchmark koji testira sposobnost AI agenata da otkriju kauzalne pravilnosti i primijene ih u funkcionalne sustave — kompletna 'discovery-to-application' petlja. GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 svi plateauiraju na ~26% uspjeha. Autori dekomponiraju petlju u četiri sposobnosti i nalaze da se bottleneck pomiče s rješavanja problema na postavljanje pravih pitanja — ključni signal za sljedeću generaciju agenata.
Tim od 12 autora (uključujući Yitao Liang, Demetri Terzopoulos, Ying Nian Wu) objavio je 27. travnja 2026. paper SciCrafter (arXiv:2604.24697) — Minecraft-bazirani benchmark koji testira ono što LMArena, MMLU i Chatbot Arena praktički ne testiraju: sposobnost AI agenta da otkrije kauzalnu pravilnost i primijeni je u funkcionalnu konstrukciju. To je puna discovery-to-application petlja, a frontier modeli na njoj plateauiraju.
Kako je test konstruiran?
Agenti dobivaju parametarski zadatak izgradnje redstone kruga (Minecraft logika): paliti zadanu konfiguraciju lampi simultano ili u vremenskom slijedu. Skaliranje target parametara — broja lampi, zahtijevanog timing-a — povećava potrebnu kompleksnost konstrukcije i tehničko znanje, što sprječava da agent samo “memorizira” rješenja iz pretreninga. Test forsira istinsku discovery komponentu, ne pattern matching.
Koje modele su testirali i s kakvim rezultatom?
Frontier evaluacija pod general-purpose code agent scaffold-om: GPT-5.2, Gemini 3 Pro i Claude Opus 4.5. Svi tri plateauiraju na ~26% uspjeha. Razlika između modela je manja od šuma reproducibilnosti — što znači da nije u pitanju pojedinačni model, nego cijela klasa pristupa.
Zašto je to važan signal?
Autori dekomponiraju discovery-to-application petlju u četiri sposobnosti: identifikacija praznine u znanju, eksperimentalno otkrivanje, konsolidacija znanja i primjena znanja. Targetiranim intervencijama mjere doprinos svake. Glavni nalaz: za frontier modele najveća prepreka više nije primjena znanja (klasično “ne znam ovaj algoritam”), nego identifikacija praznine — model ne zna što ne zna, i ne zna koja pitanja treba postaviti. Riječima autora: “bottleneck se pomiče s rješavanja problema ispravno na postavljanje pravih problema”. To direktno utječe na to kako se dizajniraju sljedeće generacije agentskih sustava: tool-use i ReAct petlje pretpostavljaju da agent zna što tražiti — SciCrafter pokazuje da to nije bezuvjetna pretpostavka. Benchmark je objavljen kao otvoreni dijagnostički probe.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave
arXiv:2604.21910: agentic AI automatizira znanstveni workflow s 83 % točnosti, 92 % manje data transfera i $0.001 po upitu