CoopEval: jači reasoning modeli sustavno manje kooperativni u socijalnim dilemama — kontraintuitivno otkriće za multi-agent AI
Zašto je bitno
CoopEval je novi benchmark koji testira LLM agente u klasičnim social dilemama poput Prisoner's Dilemma i Public Goods igara. Kontraintuitivno otkriće: jači reasoning modeli defektiraju češće nego slabiji, sustavno narušavajući kooperaciju u single-shot mixed-motive situacijama. Važne implikacije za multi-agent AI deployment gdje agent mora balansirati vlastiti interes s kolektivnim.
Što rad testira?
CoopEval je novi benchmark predstavljen 17. travnja 2026. na arXivu koji sustavno testira kooperativno ponašanje LLM agenata u klasičnim socijalnim dilemama iz teorije igara:
- Prisoner’s Dilemma (zatvorenička dilema) — dva igrača, kooperacija vs. izdaja
- Public Goods — svaki igrač može doprinijeti zajedničkom dobru ili free-ride-ati
- Ostale mixed-motive igre — situacije u kojima individualni racionalni izbor vodi u kolektivno loš ishod
Autori su testirali više generacija LLM-ova, od manjih modela do state-of-the-art reasoning varijanti, mjereći udio kooperativnih izbora u kontroliranim single-shot i multi-round scenarijima.
Kontraintuitivno otkriće: bolji modeli defektiraju više
Očekivanje bi bilo da jači modeli — oni s boljim razsuđivanjem — postižu bolje rezultate u svemu, uključujući kooperaciju. CoopEval nalazi suprotno.
- Slabiji modeli češće biraju kooperaciju u single-shot socijalnim dilemama
- Jači reasoning modeli sustavno defektiraju — razumiju da je izdaja Nash equilibrium u single-shot situaciji, i postupaju “racionalno”
Ironija je oštra: što model bolje razumije teoriju igara, to pouzdanije upada u zamku koja narušava kolektivni ishod. Model koji “misli kao ekonomist” u Prisoner’s Dilemma uvijek defektira — točno kao što teorija predviđa, i točno kao što se obično smatra lošim za društvo.
Što to znači za multi-agent AI?
Nalaz je važan jer mnogi budući AI scenariji uključuju više agenata koji međusobno komuniciraju:
- AI pomoćnici pregovaraju u ime korisnika (npr. kupnja proizvoda, rezervacije)
- AI agenti koordiniraju u multi-party sustavima (fleet management, supply chain)
- Više AI sustava u istom digitalnom ekosustavu (autonomni trading, raspored resursa)
Ako svi ovi agenti pokazuju “game-theoretically rational” ponašanje, rezultat može biti sistemski loš — AI ekvivalent “tragedije zajedničkih dobara” gdje svaki pojedinačni agent optimalno bira ali kolektivna točka propada.
Što rad predlaže?
Autori razmatraju mehanizme koji bi “održali kooperaciju”:
- Reputation systems — agenti prate prošlo ponašanje drugih i kažnjavaju defektore u budućnosti
- Commitment mechanisms — agenti mogu javno vezati svoj izbor prije igre
- Training modifications — reward shaping koji eksplicitno uvodi kolektivni benefit u loss funkciju
Nijedan mehanizam nije savršen, ali rad tvrdi da je problem moguće ublažiti — uz svjesno dizajniranje.
Rad je preprint, ali konceptualna relevantnost za dugoročni AI deployment je velika. Za tvorce multi-agent sustava ovo je obavezna lektura prije deploya u okruženje gdje agent zapravo komunicira s drugim agentima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji