CoopEval: jači LLM-ovi manje kooperativni u social dilemama

CoopEval je novi benchmark koji testira LLM agente u klasičnim social dilemama poput Prisoner's Dilemma i Public Goods igara. Kontraintuitivno otkriće: jači reasoning modeli defektiraju češće nego slabiji, sustavno narušavajući kooperaciju u single-shot mixed-motive situacijama. Važne implikacije za multi-agent AI deployment gdje agent mora balansirati vlastiti interes s kolektivnim.

Što rad testira?

CoopEval je novi benchmark predstavljen 17. travnja 2026. na arXivu koji sustavno testira kooperativno ponašanje LLM agenata u klasičnim socijalnim dilemama iz teorije igara:

Prisoner’s Dilemma (zatvorenička dilema) — dva igrača, kooperacija vs. izdaja
Public Goods — svaki igrač može doprinijeti zajedničkom dobru ili free-ride-ati
Ostale mixed-motive igre — situacije u kojima individualni racionalni izbor vodi u kolektivno loš ishod

Autori su testirali više generacija LLM-ova, od manjih modela do state-of-the-art reasoning varijanti, mjereći udio kooperativnih izbora u kontroliranim single-shot i multi-round scenarijima.

Kontraintuitivno otkriće: bolji modeli defektiraju više

Očekivanje bi bilo da jači modeli — oni s boljim razsuđivanjem — postižu bolje rezultate u svemu, uključujući kooperaciju. CoopEval nalazi suprotno.

Slabiji modeli češće biraju kooperaciju u single-shot socijalnim dilemama
Jači reasoning modeli sustavno defektiraju — razumiju da je izdaja Nash equilibrium u single-shot situaciji, i postupaju “racionalno”

Ironija je oštra: što model bolje razumije teoriju igara, to pouzdanije upada u zamku koja narušava kolektivni ishod. Model koji “misli kao ekonomist” u Prisoner’s Dilemma uvijek defektira — točno kao što teorija predviđa, i točno kao što se obično smatra lošim za društvo.

Što to znači za multi-agent AI?

Nalaz je važan jer mnogi budući AI scenariji uključuju više agenata koji međusobno komuniciraju:

AI pomoćnici pregovaraju u ime korisnika (npr. kupnja proizvoda, rezervacije)
AI agenti koordiniraju u multi-party sustavima (fleet management, supply chain)
Više AI sustava u istom digitalnom ekosustavu (autonomni trading, raspored resursa)

Ako svi ovi agenti pokazuju “game-theoretically rational” ponašanje, rezultat može biti sistemski loš — AI ekvivalent “tragedije zajedničkih dobara” gdje svaki pojedinačni agent optimalno bira ali kolektivna točka propada.

Što rad predlaže?

Autori razmatraju mehanizme koji bi “održali kooperaciju”:

Reputation systems — agenti prate prošlo ponašanje drugih i kažnjavaju defektore u budućnosti
Commitment mechanisms — agenti mogu javno vezati svoj izbor prije igre
Training modifications — reward shaping koji eksplicitno uvodi kolektivni benefit u loss funkciju

Nijedan mehanizam nije savršen, ali rad tvrdi da je problem moguće ublažiti — uz svjesno dizajniranje.

Rad je preprint, ali konceptualna relevantnost za dugoročni AI deployment je velika. Za tvorce multi-agent sustava ovo je obavezna lektura prije deploya u okruženje gdje agent zapravo komunicira s drugim agentima.

Česta pitanja

Što je Prisoner's Dilemma?

Klasična situacija u teoriji igara gdje dva igrača moraju izabrati kooperaciju ili izdaju, a oba profitiraju ako kooperiraju, ali individualno bolje prolaze izdajući — rezultat je sistemski loš ishod usprkos lokalno racionalnom izboru.

Zašto bi jači model bio manje kooperativan?

Jači reasoning model bolje prepoznaje da je defektiranje Nash equilibrium u single-shot igri. Ironija: razumijevanje teorije igara ga vodi u ne-kooperativnu zamku umjesto da uvidi dugoročne benefite kooperacije.

CoopEval: jači reasoning modeli sustavno manje kooperativni u socijalnim dilemama — kontraintuitivno otkriće za multi-agent AI

Što rad testira?

Kontraintuitivno otkriće: bolji modeli defektiraju više

Što to znači za multi-agent AI?

Što rad predlaže?

Česta pitanja

Izvori

Povezane vijesti