🟡 🤝 Agenti utorak, 28. travnja 2026. · 2 min čitanja

arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu

arXiv:2604.24697 ↗

Editorial illustration: pixel-style krugovi i lampe u Minecraft estetici koji predstavljaju discovery i benchmark frontier AI modela

Zašto je bitno

SciCrafter je novi Minecraft-bazirani benchmark koji testira sposobnost AI agenata da otkriju kauzalne pravilnosti i primijene ih u funkcionalne sustave — kompletna 'discovery-to-application' petlja. GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 svi plateauiraju na ~26% uspjeha. Autori dekomponiraju petlju u četiri sposobnosti i nalaze da se bottleneck pomiče s rješavanja problema na postavljanje pravih pitanja — ključni signal za sljedeću generaciju agenata.

Tim od 12 autora (uključujući Yitao Liang, Demetri Terzopoulos, Ying Nian Wu) objavio je 27. travnja 2026. paper SciCrafter (arXiv:2604.24697) — Minecraft-bazirani benchmark koji testira ono što LMArena, MMLU i Chatbot Arena praktički ne testiraju: sposobnost AI agenta da otkrije kauzalnu pravilnost i primijeni je u funkcionalnu konstrukciju. To je puna discovery-to-application petlja, a frontier modeli na njoj plateauiraju.

Kako je test konstruiran?

Agenti dobivaju parametarski zadatak izgradnje redstone kruga (Minecraft logika): paliti zadanu konfiguraciju lampi simultano ili u vremenskom slijedu. Skaliranje target parametara — broja lampi, zahtijevanog timing-a — povećava potrebnu kompleksnost konstrukcije i tehničko znanje, što sprječava da agent samo “memorizira” rješenja iz pretreninga. Test forsira istinsku discovery komponentu, ne pattern matching.

Koje modele su testirali i s kakvim rezultatom?

Frontier evaluacija pod general-purpose code agent scaffold-om: GPT-5.2, Gemini 3 Pro i Claude Opus 4.5. Svi tri plateauiraju na ~26% uspjeha. Razlika između modela je manja od šuma reproducibilnosti — što znači da nije u pitanju pojedinačni model, nego cijela klasa pristupa.

Zašto je to važan signal?

Autori dekomponiraju discovery-to-application petlju u četiri sposobnosti: identifikacija praznine u znanju, eksperimentalno otkrivanje, konsolidacija znanja i primjena znanja. Targetiranim intervencijama mjere doprinos svake. Glavni nalaz: za frontier modele najveća prepreka više nije primjena znanja (klasično “ne znam ovaj algoritam”), nego identifikacija praznine — model ne zna što ne zna, i ne zna koja pitanja treba postaviti. Riječima autora: “bottleneck se pomiče s rješavanja problema ispravno na postavljanje pravih problema”. To direktno utječe na to kako se dizajniraju sljedeće generacije agentskih sustava: tool-use i ReAct petlje pretpostavljaju da agent zna što tražiti — SciCrafter pokazuje da to nije bezuvjetna pretpostavka. Benchmark je objavljen kao otvoreni dijagnostički probe.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.