SciCrafter: GPT-5.2, Gemini 3, Opus 4.5 stoje na 26%

SciCrafter je novi Minecraft-bazirani benchmark koji testira sposobnost AI agenata da otkriju kauzalne pravilnosti i primijene ih u funkcionalne sustave — kompletna 'discovery-to-application' petlja. GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 svi plateauiraju na ~26% uspjeha. Autori dekomponiraju petlju u četiri sposobnosti i nalaze da se bottleneck pomiče s rješavanja problema na postavljanje pravih pitanja — ključni signal za sljedeću generaciju agenata.

Tim od 12 autora (uključujući Yitao Liang, Demetri Terzopoulos, Ying Nian Wu) objavio je 27. travnja 2026. paper SciCrafter (arXiv:2604.24697) — Minecraft-bazirani benchmark koji testira ono što LMArena, MMLU i Chatbot Arena praktički ne testiraju: sposobnost AI agenta da otkrije kauzalnu pravilnost i primijeni je u funkcionalnu konstrukciju. To je puna discovery-to-application petlja, a frontier modeli na njoj plateauiraju.

Kako je test konstruiran?

Agenti dobivaju parametarski zadatak izgradnje redstone kruga (Minecraft logika): paliti zadanu konfiguraciju lampi simultano ili u vremenskom slijedu. Skaliranje target parametara — broja lampi, zahtijevanog timing-a — povećava potrebnu kompleksnost konstrukcije i tehničko znanje, što sprječava da agent samo “memorizira” rješenja iz pretreninga. Test forsira istinsku discovery komponentu, ne pattern matching.

Koje modele su testirali i s kakvim rezultatom?

Frontier evaluacija pod general-purpose code agent scaffold-om: GPT-5.2, Gemini 3 Pro i Claude Opus 4.5. Svi tri plateauiraju na ~26% uspjeha. Razlika između modela je manja od šuma reproducibilnosti — što znači da nije u pitanju pojedinačni model, nego cijela klasa pristupa.

Zašto je to važan signal?

Autori dekomponiraju discovery-to-application petlju u četiri sposobnosti: identifikacija praznine u znanju, eksperimentalno otkrivanje, konsolidacija znanja i primjena znanja. Targetiranim intervencijama mjere doprinos svake. Glavni nalaz: za frontier modele najveća prepreka više nije primjena znanja (klasično “ne znam ovaj algoritam”), nego identifikacija praznine — model ne zna što ne zna, i ne zna koja pitanja treba postaviti. Riječima autora: “bottleneck se pomiče s rješavanja problema ispravno na postavljanje pravih problema”. To direktno utječe na to kako se dizajniraju sljedeće generacije agentskih sustava: tool-use i ReAct petlje pretpostavljaju da agent zna što tražiti — SciCrafter pokazuje da to nije bezuvjetna pretpostavka. Benchmark je objavljen kao otvoreni dijagnostički probe.

Česta pitanja

Što znači 'discovery-to-application gap'?

To je petlja u kojoj agent mora otkriti kauzalnu pravilnost (npr. timing logiku redstone kruga) i primijeniti je za izgradnju funkcionalnog sustava (npr. paljenja lampi u zadanom uzorku). Mjeri spoj otkrivanja i izvedbe — što tradicionalni LLM benchmarci slabo testiraju.

Koji je glavni bottleneck koji autori identificiraju?

Za frontier modele (GPT-5.2, Gemini 3 Pro, Claude Opus 4.5) najveći novi bottleneck je 'knowledge gap identification' — sposobnost prepoznavanja što agent NE zna i koje pitanje uopće treba postaviti. Pomak s 'rješavati ispravno' na 'postavljati pravo pitanje'.

arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu

Kako je test konstruiran?

Koje modele su testirali i s kakvim rezultatom?

Zašto je to važan signal?

Česta pitanja

Izvori

Povezane vijesti