CoopEval: jači reasoning modeli sustavno manje kooperativni u socijalnim dilemama — kontraintuitivno otkriće za multi-agent AI
Zašto je bitno
CoopEval je novi benchmark koji testira LLM agente u klasičnim social dilemama poput Prisoner's Dilemma i Public Goods igara. Kontraintuitivno otkriće: jači reasoning modeli defektiraju češće nego slabiji, sustavno narušavajući kooperaciju u single-shot mixed-motive situacijama. Važne implikacije za multi-agent AI deployment gdje agent mora balansirati vlastiti interes s kolektivnim.
Što rad testira?
CoopEval je novi benchmark predstavljen 17. travnja 2026. na arXivu koji sustavno testira kooperativno ponašanje LLM agenata u klasičnim socijalnim dilemama iz teorije igara:
- Prisoner’s Dilemma (zatvorenička dilema) — dva igrača, kooperacija vs. izdaja
- Public Goods — svaki igrač može doprinijeti zajedničkom dobru ili free-ride-ati
- Ostale mixed-motive igre — situacije u kojima individualni racionalni izbor vodi u kolektivno loš ishod
Autori su testirali više generacija LLM-ova, od manjih modela do state-of-the-art reasoning varijanti, mjereći udio kooperativnih izbora u kontroliranim single-shot i multi-round scenarijima.
Kontraintuitivno otkriće: bolji modeli defektiraju više
Očekivanje bi bilo da jači modeli — oni s boljim razsuđivanjem — postižu bolje rezultate u svemu, uključujući kooperaciju. CoopEval nalazi suprotno.
- Slabiji modeli češće biraju kooperaciju u single-shot socijalnim dilemama
- Jači reasoning modeli sustavno defektiraju — razumiju da je izdaja Nash equilibrium u single-shot situaciji, i postupaju “racionalno”
Ironija je oštra: što model bolje razumije teoriju igara, to pouzdanije upada u zamku koja narušava kolektivni ishod. Model koji “misli kao ekonomist” u Prisoner’s Dilemma uvijek defektira — točno kao što teorija predviđa, i točno kao što se obično smatra lošim za društvo.
Što to znači za multi-agent AI?
Nalaz je važan jer mnogi budući AI scenariji uključuju više agenata koji međusobno komuniciraju:
- AI pomoćnici pregovaraju u ime korisnika (npr. kupnja proizvoda, rezervacije)
- AI agenti koordiniraju u multi-party sustavima (fleet management, supply chain)
- Više AI sustava u istom digitalnom ekosustavu (autonomni trading, raspored resursa)
Ako svi ovi agenti pokazuju “game-theoretically rational” ponašanje, rezultat može biti sistemski loš — AI ekvivalent “tragedije zajedničkih dobara” gdje svaki pojedinačni agent optimalno bira ali kolektivna točka propada.
Što rad predlaže?
Autori razmatraju mehanizme koji bi “održali kooperaciju”:
- Reputation systems — agenti prate prošlo ponašanje drugih i kažnjavaju defektore u budućnosti
- Commitment mechanisms — agenti mogu javno vezati svoj izbor prije igre
- Training modifications — reward shaping koji eksplicitno uvodi kolektivni benefit u loss funkciju
Nijedan mehanizam nije savršen, ali rad tvrdi da je problem moguće ublažiti — uz svjesno dizajniranje.
Rad je preprint, ali konceptualna relevantnost za dugoročni AI deployment je velika. Za tvorce multi-agent sustava ovo je obavezna lektura prije deploya u okruženje gdje agent zapravo komunicira s drugim agentima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave