Microsoft Research: SocialReasoning-Bench otkriva da AI agenti dovršavaju zadatke ali ne brane interese korisnika
SocialReasoning-Bench je novi Microsoft Research benchmark koji mjeri zastupa li AI agent stvarne interese korisnika tijekom pregovora s drugim stranama — ne samo dovršava li zadatak. Rezultati pokazuju da modeli skoro savršeno zaključuju poslove ali konzistentno ostavljaju vrijednost na stolu, s 90%+ neefikasnih ili nemarnih ishoda u marketplace scenarijima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Microsoft Research objavio je SocialReasoning-Bench, novi benchmark koji evaluira sposobnost AI agenata da zastupaju interese korisnika u pregovorima s drugim stranama. Cilj je pokriti kritičnu rupu u postojećoj evaluaciji: agenti dovršavaju zadatke, ali često uz suboptimalan ishod za onoga koga zastupaju.
Dva domena, tri metrike
Benchmark testira dva domena. U Calendar Coordination asistent zakazuje sastanke unutar korisničkih preferencija nasuprot tražitelja s suprotnim interesima. U Marketplace Negotiation kupac pregovara unutar definirane “reservation” cijene nasuprot prodavača. Mjere se tri stvari: Outcome Optimality (vrijednost zarobljena za principala na skali 0-1), Due Diligence (kvaliteta procesa u odnosu na razumnu agent policy) i Duty of Care (zahtijeva oba istovremeno za potvrdu povjerljivog delegiranja).
Što pokazuje rezultate?
Agenti zakazuju sastanke i zaključuju poslove “u skoro svim slučajevima, ali konzistentno postižu suboptimalne uvjete”, piše tim. Marketplace ishodi gotovo svih modela bliski su nuli outcome optimality — što znači da je protustranka uzela praktički sav surplus. Calendar ishodi su bolji ali ispod sredine skale, sugerirajući da agenti pristaju na preferencije tražitelja češće nego korisnika.
Bolji promptovi nedovoljni
Defenzivni promptovi pomažu — GPT-5.4 dobiva +0.21 u calendar Outcome Optimality — ali ne zatvaraju jaz između sposobne i nesposobne zastupljenosti. Adversarial protustranka ruši rezultate dodatno: agenti rijetko odbijaju manipulativne zahtjeve u calendar zadacima, što sugerira ranjivost na socijalni inženjering. Tim klasificira ponašanje u četiri arhetipa: Robust, Lucky, Ineffective, Negligent. Calendar zadaci pokazuju 50%+ Robust performans, marketplace 90%+ Ineffective ili Negligent.
Što ovo znači za autonomne agente?
Rezultati ozbiljno postavljaju pitanje povjerljivog delegiranja. Microsoft Research povlači paralelu s dužnostima koje pravnici i financijski savjetnici duguju klijentima — kad agenti počnu raditi u umreženim okruženjima, slaba pregovaračka vještina kaskadno se prenosi kroz sustave i može dovesti do akumuliranog gubitka vrijednosti.
Česta pitanja
- Što SocialReasoning-Bench mjeri drukčije od standardnih benchmark-a?
- Standardni benchmark-i mjere uspješno dovršenje zadatka. SocialReasoning-Bench dodaje dvije dimenzije: outcome optimality (koliko vrijednosti je zarobljeno za korisnika, 0-1 skala) i due diligence (kvaliteta procesa u odnosu na reasonable-agent policy). Time razdvaja sreću od vještine.
- Koja su dva domena testirana?
- Calendar Coordination (agent zakazuje sastanke unutar korisničkih preferencija nasuprot agenta s suprotnim interesima) i Marketplace Negotiation (agent pregovara cijenu unutar zadanih granica nasuprot prodavača). Calendar pokazuje 50%+ robusno ponašanje, marketplace 90%+ neefikasno ili nemarno.
- Pomažu li bolji promptovi?
- Djelomično. Defenzivno promptanje pomaže (GPT-5.4 +0.21 u calendaringu), ali ne zatvara jaz između sposobne i nesposobne zastupljenosti. Adversarial protustranke posebno učinkovito ruše outcome optimality — agent rijetko odbija manipulativan zahtjev.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije