CoopEval: jači reasoning modeli sustavno manje kooperativni u socijalnim dilemama — kontraintuitivno otkriće za multi-agent AI
CoopEval je novi benchmark koji testira LLM agente u klasičnim social dilemama poput Prisoner's Dilemma i Public Goods igara. Kontraintuitivno otkriće: jači reasoning modeli defektiraju češće nego slabiji, sustavno narušavajući kooperaciju u single-shot mixed-motive situacijama. Važne implikacije za multi-agent AI deployment gdje agent mora balansirati vlastiti interes s kolektivnim.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što rad testira?
CoopEval je novi benchmark predstavljen 17. travnja 2026. na arXivu koji sustavno testira kooperativno ponašanje LLM agenata u klasičnim socijalnim dilemama iz teorije igara:
- Prisoner’s Dilemma (zatvorenička dilema) — dva igrača, kooperacija vs. izdaja
- Public Goods — svaki igrač može doprinijeti zajedničkom dobru ili free-ride-ati
- Ostale mixed-motive igre — situacije u kojima individualni racionalni izbor vodi u kolektivno loš ishod
Autori su testirali više generacija LLM-ova, od manjih modela do state-of-the-art reasoning varijanti, mjereći udio kooperativnih izbora u kontroliranim single-shot i multi-round scenarijima.
Kontraintuitivno otkriće: bolji modeli defektiraju više
Očekivanje bi bilo da jači modeli — oni s boljim razsuđivanjem — postižu bolje rezultate u svemu, uključujući kooperaciju. CoopEval nalazi suprotno.
- Slabiji modeli češće biraju kooperaciju u single-shot socijalnim dilemama
- Jači reasoning modeli sustavno defektiraju — razumiju da je izdaja Nash equilibrium u single-shot situaciji, i postupaju “racionalno”
Ironija je oštra: što model bolje razumije teoriju igara, to pouzdanije upada u zamku koja narušava kolektivni ishod. Model koji “misli kao ekonomist” u Prisoner’s Dilemma uvijek defektira — točno kao što teorija predviđa, i točno kao što se obično smatra lošim za društvo.
Što to znači za multi-agent AI?
Nalaz je važan jer mnogi budući AI scenariji uključuju više agenata koji međusobno komuniciraju:
- AI pomoćnici pregovaraju u ime korisnika (npr. kupnja proizvoda, rezervacije)
- AI agenti koordiniraju u multi-party sustavima (fleet management, supply chain)
- Više AI sustava u istom digitalnom ekosustavu (autonomni trading, raspored resursa)
Ako svi ovi agenti pokazuju “game-theoretically rational” ponašanje, rezultat može biti sistemski loš — AI ekvivalent “tragedije zajedničkih dobara” gdje svaki pojedinačni agent optimalno bira ali kolektivna točka propada.
Što rad predlaže?
Autori razmatraju mehanizme koji bi “održali kooperaciju”:
- Reputation systems — agenti prate prošlo ponašanje drugih i kažnjavaju defektore u budućnosti
- Commitment mechanisms — agenti mogu javno vezati svoj izbor prije igre
- Training modifications — reward shaping koji eksplicitno uvodi kolektivni benefit u loss funkciju
Nijedan mehanizam nije savršen, ali rad tvrdi da je problem moguće ublažiti — uz svjesno dizajniranje.
Rad je preprint, ali konceptualna relevantnost za dugoročni AI deployment je velika. Za tvorce multi-agent sustava ovo je obavezna lektura prije deploya u okruženje gdje agent zapravo komunicira s drugim agentima.
Česta pitanja
- Što je Prisoner's Dilemma?
- Klasična situacija u teoriji igara gdje dva igrača moraju izabrati kooperaciju ili izdaju, a oba profitiraju ako kooperiraju, ali individualno bolje prolaze izdajući — rezultat je sistemski loš ishod usprkos lokalno racionalnom izboru.
- Zašto bi jači model bio manje kooperativan?
- Jači reasoning model bolje prepoznaje da je defektiranje Nash equilibrium u single-shot igri. Ironija: razumijevanje teorije igara ga vodi u ne-kooperativnu zamku umjesto da uvidi dugoročne benefite kooperacije.
Izvori
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije