CEO-Bench: AI agenti na čelu startupa

CEO-Bench je benchmark koji simulira 500-dnevno vođenje startupa i testira sposobnost AI agenata da donose poslovne odluke bez nadzora. Samo Claude Opus 4.8 i GPT-5.5 premašuju početni kapital od 1 milijun dolara, ali nijedan model ne ostvaruje konzistentan profit.

Novi benchmark mjeri poslovnu zrelost AI agenata

Agentski benchmark je test koji mjeri sposobnost AI modela da samostalno donosi odluke kroz duži niz koraka — za razliku od klasičnih testova koji provjeravaju jednokratne odgovore. CEO-Bench, predstavljen u istraživačkom radu arXiv:2606.18543, ide korak dalje: simulira 500 dana vođenja startupa, uključujući određivanje cijena, marketinške kampanje i alokaciju proračuna. Radi se o jednom od prvih benchmarka koji sustavno ispituje dugoročno poslovno rasuđivanje AI sustava.

Samo dva modela prelaze milijun dolara — ali profit izostaje

Rezultati su jasni i pomalo otrijeznjujući. Od svih testiranih modela, jedino Claude Opus 4.8 i GPT-5.5 uspijevaju premašiti početni kapital od 1 milijun dolara — dok ostali modeli ne dosežu ni tu granicu. No čak i ta dva vodećeg modela ne ostvaruju konzistentan profit kroz cijeli simulacijski period. Razlika između Opus 4.8 i GPT-5.5 s jedne strane i ostatka tržišta s druge pokazuje koliko je jaz između vodećih i prosječnih modela u kompleksnim poslovnim scenarijima.

Agenti simuliraju kupce kako bi predvidjeli novčani tok

Jedan od najzanimljivijih nalaza rada jest strategija koju razvijaju najjači agenti: umjesto reaktivnih odluka, oni pišu kod koji simulira kohorte kupaca (customer cohorts) — grupe korisnika segmentirane prema ponašanju — kako bi predvidjeli buduće novčane tokove. Taj pristup podsjeća na napredne financijske modele koje koriste analitičari u konzultantskim kućama, ali ga AI agenti izvode autonomno i u realnom vremenu unutar simulacije.

Poslovni scenariji postaju novi frontier AI evaluacije

CEO-Bench pozicionira dugoročno poslovno rasuđivanje kao sljedeći veliki izazov za AI zajednicu. Dok laboratorijski benchmarci poput MMLU ili MATH mjere statičko znanje, CEO-Bench naglašava adaptaciju kroz vrijeme — sposobnost agenta da korigira strategiju na temelju prethodnih rezultata. Rezultati sugeriraju da čak i najnapredniji modeli tek počinju razvijati tu vrstu strateške konzistentnosti.

Česta pitanja

Što je CEO-Bench i zašto je važan za razvoj AI agenata?

CEO-Bench je agentski benchmark koji mjeri samostalno donošenje poslovnih odluka kroz simulaciju 500-dnevnog vođenja startupa, uključujući određivanje cijena, marketing i budžetiranje — zadatke koje tradicionalni benchmarci ne pokrivaju.

Koji modeli su pokazali najbolje rezultate na CEO-Bench testu?

Claude Opus 4.8 i GPT-5.5 jedini su premašili početni kapital od 1 milijun dolara, dok ostali testirani modeli nisu dostigli ni tu razinu, a nijedan nije ostvario konzistentan profit.

arXiv:2606.18543: CEO-Bench — mogu li agenti voditi startup na dugi rok?

Novi benchmark mjeri poslovnu zrelost AI agenata

Samo dva modela prelaze milijun dolara — ali profit izostaje

Agenti simuliraju kupce kako bi predvidjeli novčani tok

Poslovni scenariji postaju novi frontier AI evaluacije

Česta pitanja

Izvori

Povezane vijesti