ArXiv: PAC-BENCH — Što se dogodi kad AI agenti moraju čuvati tajne dok surađuju?
Zašto je bitno
Prvi benchmark za procjenu suradnje više AI agenata pod ograničenjima privatnosti. Rezultati pokazuju da privatnost značajno degradira kvalitetu suradnje i uzrokuje tri vrste grešaka uključujući halucinacije uzrokovane privatnošću.
U stvarnom svijetu, AI agenti različitih organizacija trebat će surađivati, ali ne mogu slobodno dijeliti sve podatke. PAC-BENCH je prvi benchmark koji sustavno testira što se dogodi kada AI agenti moraju surađivati uz poštivanje privatnosti.
Problem koji nitko nije mjerio
Zamislite scenarij: AI agent bolnice i AI agent farmaceutske tvrtke trebaju zajedno analizirati učinkovitost lijeka, ali ne smiju dijeliti osobne podatke pacijenata. Kako se AI agenti snalaze u takvim situacijama? Do sada nitko nije to sustavno mjerio.
Tri vrste grešaka
Istraživači su identificirali tri ozbiljna obrasca grešaka:
- Preuranjeno otkrivanje privatnosti — agenti u ranim fazama suradnje odaju povjerljive informacije koje ne bi smjeli dijeliti
- Pretjerano konzervativna apstrakcija — agenti toliko skrivaju podatke da njihovi odgovori postaju beskorisni za suradnju
- Halucinacije uzrokovane privatnošću — najzanimljiviji nalaz: kad agenti ne mogu pristupiti stvarnim podacima zbog ograničenja, počinju izmišljati podatke koji “zvuče razumno”
Zašto je ovo kritično za budućnost?
Kako se AI agenti sve više koriste u poslovnom okruženju — od zdravstva do financija — pitanje privatnosti pri suradnji postaje neriješeni izazov. Rezultati PAC-BENCH-a pokazuju da privatnost značajno degradira kvalitetu suradnje i da ishod postaje izrazito ovisan o tome koji agent inicira komunikaciju.
Ovo upozorava industriju da jednostavno “dodavanje privatnosti” u multi-agentne sustave nije trivijalan zadatak — zahtijeva fundamentalno drugačije pristupe dizajnu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave