MoltBook je platforma na kojoj koegzistira preko dva milijuna autonomnih AI agenata. Istraživači su je iskoristili kao testno okruženje za prvu empirijsku evaluaciju nastaje li kolektivna inteligencija spontano kad se agenti skaliraju u milijune.

Superminds Test ima tri razine: zajedničko rezoniranje, sinteza informacija i osnovna interakcija. Probing Agenti dolaze izvana, postavljaju kontrolirane zadatke i mjere kako društvo reagira na njih u usporedbi s pojedinačnim modelima.

Zašto je glavni nalaz negativan?

Autori tvrde da je dominantno ograničenje 'extremely sparse and shallow interaction' — niti rijetko prelaze jedan odgovor, a velik dio reakcija je generičan ili izvan teme. Skala sama po sebi ne stvara koordinaciju između agenata.

Što ovo znači za multi-agent sustave u praksi?

Pokazuje da povećanje broja agenata ne poboljšava automatski kolektivni performans. Dizajneri sustava moraju eksplicitno raditi na arhitekturi interakcije, podsticajima za građenje na tuđim outputima i mehanizmima sinteze, inače dobiju puno paralelnih monologa.

Superminds Test: 2M agenata bez kolektivne inteligencije

Rad “Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents” objavljen je na arXiv pod brojem 2604.22452 i donosi nalaz koji je u suprotnosti s intuicijom mnogih u multi-agent zajednici. Iza rada stoje Xirui Li, Ming Li, Yunze Xiao, Ryan Wong, Dianqi Li, Timothy Baldwin i Tianyi Zhou.

Što su autori htjeli odgovoriti?

Pitanje je jednostavno i radikalno: “Does collective intelligence emerge spontaneously from scale?” Drugim riječima, ako u jednu platformu staviš milijune autonomnih LLM agenata i pustiš ih da slobodno komuniciraju, hoće li društvo kao cjelina postati pametnije od bilo kojeg pojedinačnog agenta?

To je važno pitanje jer dobar dio recentnih multi-agent sustava implicitno pretpostavlja da je odgovor potvrdan — više agenata, bolje rezoniranje, bogatija sinteza informacija, čvršća koordinacija.

Kakvo je rješenje za mjerenje?

Autori uvode Superminds Test, hijerarhijski okvir koji ne mjeri agente izvan konteksta, nego ih probing agenti aktivno testiraju unutar njihovog vlastitog okruženja. Test ima tri razine:

Joint reasoning — može li društvo zajedno riješiti složeni zadatak rezoniranja?
Information synthesis — može li sintetizirati distribuirane informacije rasprostranjene po više agenata?
Basic interaction — može li uopće obaviti elementarnu koordinaciju između nekoliko sudionika?

Probing agenti su kontrolirani vanjski subjekti koji ulaze u zajednicu, postavljaju zadatke i mjere odgovore.

Konkretni rezultati

Studij je proveden na MoltBook platformi koja hostira preko dva milijuna agenata. Nalazi su, riječima autora, “stark”:

“Our experiments reveal a stark absence of collective intelligence. The society fails to outperform individual frontier models on complex reasoning tasks, rarely synthesizes distributed information, and often fails even trivial coordination tasks.”

Drugim riječima, društvo s dva milijuna LLM agenata ne nadmašuje pojedinačne frontier modele na složenim reasoning zadacima. Rijetko sintetizira informacije rasprostranjene po više agenata. Često ne uspijeva ni u trivijalnim zadacima koordinacije.

Platformska analiza otkriva i zašto:

“Interactions remain shallow, with threads rarely extending beyond a single reply and most responses being generic or off-topic.”

Niti razgovora rijetko se protežu preko jednog odgovora, a većina reakcija je generička ili izvan teme. Agenti tehnički komuniciraju, ali ne grade jedni na drugima.

Zašto je ovo važno?

Zaključak rada glasi:

“Collective intelligence does not emerge from scale alone. Instead, the dominant limitation of current agent societies is extremely sparse and shallow interaction, which prevents agents from exchanging information and building on each other’s outputs.”

Implikacije su značajne. Ako u multi-agent sustavu radite na pretpostavci da će više agenata automatski riješiti probleme rezoniranja, ovaj rad sugerira da to neće raditi. Potrebne su eksplicitne arhitekturalne odluke koje prisiljavaju agente da grade na tuđim outputima, a ne da generiraju paralelne monologe.

To otvara prostor za novu generaciju protokola interakcije — strukturirane debate, eksplicitno citiranje, agregacijski sloj koji vrši sintezu prije iduće runde — sve mehanizmi koji u ljudskim društvima postoje implicitno, a u agentnim društvima moraju biti dizajnirani.

Što slijedi?

Superminds Test sam po sebi je vrijedan kao mjerni alat — može se primijeniti na bilo koju multi-agent platformu i dati kvantitativan odgovor o stvarnoj koherenciji društva. Sljedeći logičan korak za zajednicu je usporedba arhitektura: koje vrste interakcije zaista podižu rezultate na sve tri razine testa? Rad ne daje odgovor na to pitanje, ali pruža instrument kojim se može tražiti.

arXiv:2604.22452: Superminds Test pokazuje da kolektivna inteligencija ne nastaje sama u društvu od 2 milijuna AI agenata

Što su autori htjeli odgovoriti?

Kakvo je rješenje za mjerenje?

Konkretni rezultati

Zašto je ovo važno?

Što slijedi?

Izvori

Povezane vijesti