ArXiv: PAC-BENCH — Što se dogodi kad AI agenti moraju čuvati tajne dok surađuju?
Prvi benchmark za procjenu suradnje više AI agenata pod ograničenjima privatnosti. Rezultati pokazuju da privatnost značajno degradira kvalitetu suradnje i uzrokuje tri vrste grešaka uključujući halucinacije uzrokovane privatnošću.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
U stvarnom svijetu, AI agenti različitih organizacija trebat će surađivati, ali ne mogu slobodno dijeliti sve podatke. PAC-BENCH je prvi benchmark koji sustavno testira što se dogodi kada AI agenti moraju surađivati uz poštivanje privatnosti.
Problem koji nitko nije mjerio
Zamislite scenarij: AI agent bolnice i AI agent farmaceutske tvrtke trebaju zajedno analizirati učinkovitost lijeka, ali ne smiju dijeliti osobne podatke pacijenata. Kako se AI agenti snalaze u takvim situacijama? Do sada nitko nije to sustavno mjerio.
Tri vrste grešaka
Istraživači su identificirali tri ozbiljna obrasca grešaka:
- Preuranjeno otkrivanje privatnosti — agenti u ranim fazama suradnje odaju povjerljive informacije koje ne bi smjeli dijeliti
- Pretjerano konzervativna apstrakcija — agenti toliko skrivaju podatke da njihovi odgovori postaju beskorisni za suradnju
- Halucinacije uzrokovane privatnošću — najzanimljiviji nalaz: kad agenti ne mogu pristupiti stvarnim podacima zbog ograničenja, počinju izmišljati podatke koji “zvuče razumno”
Zašto je ovo kritično za budućnost?
Kako se AI agenti sve više koriste u poslovnom okruženju — od zdravstva do financija — pitanje privatnosti pri suradnji postaje neriješeni izazov. Rezultati PAC-BENCH-a pokazuju da privatnost značajno degradira kvalitetu suradnje i da ishod postaje izrazito ovisan o tome koji agent inicira komunikaciju.
Ovo upozorava industriju da jednostavno “dodavanje privatnosti” u multi-agentne sustave nije trivijalan zadatak — zahtijeva fundamentalno drugačije pristupe dizajnu.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije