arXiv:2606.18543: CEO-Bench — mogu li agenti voditi startup na dugi rok?
CEO-Bench je benchmark koji simulira 500-dnevno vođenje startupa i testira sposobnost AI agenata da donose poslovne odluke bez nadzora. Samo Claude Opus 4.8 i GPT-5.5 premašuju početni kapital od 1 milijun dolara, ali nijedan model ne ostvaruje konzistentan profit.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi benchmark mjeri poslovnu zrelost AI agenata
Agentski benchmark je test koji mjeri sposobnost AI modela da samostalno donosi odluke kroz duži niz koraka — za razliku od klasičnih testova koji provjeravaju jednokratne odgovore. CEO-Bench, predstavljen u istraživačkom radu arXiv:2606.18543, ide korak dalje: simulira 500 dana vođenja startupa, uključujući određivanje cijena, marketinške kampanje i alokaciju proračuna. Radi se o jednom od prvih benchmarka koji sustavno ispituje dugoročno poslovno rasuđivanje AI sustava.
Samo dva modela prelaze milijun dolara — ali profit izostaje
Rezultati su jasni i pomalo otrijeznjujući. Od svih testiranih modela, jedino Claude Opus 4.8 i GPT-5.5 uspijevaju premašiti početni kapital od 1 milijun dolara — dok ostali modeli ne dosežu ni tu granicu. No čak i ta dva vodećeg modela ne ostvaruju konzistentan profit kroz cijeli simulacijski period. Razlika između Opus 4.8 i GPT-5.5 s jedne strane i ostatka tržišta s druge pokazuje koliko je jaz između vodećih i prosječnih modela u kompleksnim poslovnim scenarijima.
Agenti simuliraju kupce kako bi predvidjeli novčani tok
Jedan od najzanimljivijih nalaza rada jest strategija koju razvijaju najjači agenti: umjesto reaktivnih odluka, oni pišu kod koji simulira kohorte kupaca (customer cohorts) — grupe korisnika segmentirane prema ponašanju — kako bi predvidjeli buduće novčane tokove. Taj pristup podsjeća na napredne financijske modele koje koriste analitičari u konzultantskim kućama, ali ga AI agenti izvode autonomno i u realnom vremenu unutar simulacije.
Poslovni scenariji postaju novi frontier AI evaluacije
CEO-Bench pozicionira dugoročno poslovno rasuđivanje kao sljedeći veliki izazov za AI zajednicu. Dok laboratorijski benchmarci poput MMLU ili MATH mjere statičko znanje, CEO-Bench naglašava adaptaciju kroz vrijeme — sposobnost agenta da korigira strategiju na temelju prethodnih rezultata. Rezultati sugeriraju da čak i najnapredniji modeli tek počinju razvijati tu vrstu strateške konzistentnosti.
Česta pitanja
- Što je CEO-Bench i zašto je važan za razvoj AI agenata?
- CEO-Bench je agentski benchmark koji mjeri samostalno donošenje poslovnih odluka kroz simulaciju 500-dnevnog vođenja startupa, uključujući određivanje cijena, marketing i budžetiranje — zadatke koje tradicionalni benchmarci ne pokrivaju.
- Koji modeli su pokazali najbolje rezultate na CEO-Bench testu?
- Claude Opus 4.8 i GPT-5.5 jedini su premašili početni kapital od 1 milijun dolara, dok ostali testirani modeli nisu dostigli ni tu razinu, a nijedan nije ostvario konzistentan profit.
Povezane vijesti
Anthropic: Project Fetch — faza dva pokazuje 20× brži robotizirani rad uz 10× manje koda
AWS: Amazon Bedrock AgentCore Harness dostigao opću dostupnost — deploy u 2 API poziva
GitHub: AI agenti sada mogu kreirati potpuno triagirane issue-e bez ljudske intervencije