🟡 🤝 Agenti Objavljeno: · 2 min čitanja ·

arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu

arXiv:2604.24697 ↗

Editorial illustration: pixel-style krugovi i lampe u Minecraft estetici koji predstavljaju discovery i benchmark frontier AI modela

SciCrafter je novi Minecraft-bazirani benchmark koji testira sposobnost AI agenata da otkriju kauzalne pravilnosti i primijene ih u funkcionalne sustave — kompletna 'discovery-to-application' petlja. GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 svi plateauiraju na ~26% uspjeha. Autori dekomponiraju petlju u četiri sposobnosti i nalaze da se bottleneck pomiče s rješavanja problema na postavljanje pravih pitanja — ključni signal za sljedeću generaciju agenata.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Tim od 12 autora (uključujući Yitao Liang, Demetri Terzopoulos, Ying Nian Wu) objavio je 27. travnja 2026. paper SciCrafter (arXiv:2604.24697) — Minecraft-bazirani benchmark koji testira ono što LMArena, MMLU i Chatbot Arena praktički ne testiraju: sposobnost AI agenta da otkrije kauzalnu pravilnost i primijeni je u funkcionalnu konstrukciju. To je puna discovery-to-application petlja, a frontier modeli na njoj plateauiraju.

Kako je test konstruiran?

Agenti dobivaju parametarski zadatak izgradnje redstone kruga (Minecraft logika): paliti zadanu konfiguraciju lampi simultano ili u vremenskom slijedu. Skaliranje target parametara — broja lampi, zahtijevanog timing-a — povećava potrebnu kompleksnost konstrukcije i tehničko znanje, što sprječava da agent samo “memorizira” rješenja iz pretreninga. Test forsira istinsku discovery komponentu, ne pattern matching.

Koje modele su testirali i s kakvim rezultatom?

Frontier evaluacija pod general-purpose code agent scaffold-om: GPT-5.2, Gemini 3 Pro i Claude Opus 4.5. Svi tri plateauiraju na ~26% uspjeha. Razlika između modela je manja od šuma reproducibilnosti — što znači da nije u pitanju pojedinačni model, nego cijela klasa pristupa.

Zašto je to važan signal?

Autori dekomponiraju discovery-to-application petlju u četiri sposobnosti: identifikacija praznine u znanju, eksperimentalno otkrivanje, konsolidacija znanja i primjena znanja. Targetiranim intervencijama mjere doprinos svake. Glavni nalaz: za frontier modele najveća prepreka više nije primjena znanja (klasično “ne znam ovaj algoritam”), nego identifikacija praznine — model ne zna što ne zna, i ne zna koja pitanja treba postaviti. Riječima autora: “bottleneck se pomiče s rješavanja problema ispravno na postavljanje pravih problema”. To direktno utječe na to kako se dizajniraju sljedeće generacije agentskih sustava: tool-use i ReAct petlje pretpostavljaju da agent zna što tražiti — SciCrafter pokazuje da to nije bezuvjetna pretpostavka. Benchmark je objavljen kao otvoreni dijagnostički probe.

Česta pitanja

Što znači 'discovery-to-application gap'?
To je petlja u kojoj agent mora otkriti kauzalnu pravilnost (npr. timing logiku redstone kruga) i primijeniti je za izgradnju funkcionalnog sustava (npr. paljenja lampi u zadanom uzorku). Mjeri spoj otkrivanja i izvedbe — što tradicionalni LLM benchmarci slabo testiraju.
Koji je glavni bottleneck koji autori identificiraju?
Za frontier modele (GPT-5.2, Gemini 3 Pro, Claude Opus 4.5) najveći novi bottleneck je 'knowledge gap identification' — sposobnost prepoznavanja što agent NE zna i koje pitanje uopće treba postaviti. Pomak s 'rješavati ispravno' na 'postavljati pravo pitanje'.