arXiv:2606.16723: AgentFairBench mjeri demografsku diskriminaciju u akcijama LLM agenata
AgentFairBench je prvi benchmark koji mjeri demografsku nejednakost u samim akcijama LLM agenata — ne samo u odgovorima — kroz domene zapošljavanja, kreditiranja i medicinske trijaže. Koristi metrike counterfactual flip rate i action-rate disparity te testira četiri agentska scaffolda. U pilotu od 864 odluke Claude Haiku nije pokazao demografski efekt iznad razine šuma, a rad upozorava da naivna usporedba šest skupina može precijeniti nejednakost otprilike 2,4 puta.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi preprint predstavlja AgentFairBench, prvi benchmark koji mjeri demografsku diskriminaciju u akcijama LLM agenata, a ne tek u njihovim tekstualnim odgovorima.
Što AgentFairBench mjeri drugačije?
Dosadašnji testovi pravednosti uglavnom su provjeravali odgovore modela, dok AgentFairBench gleda same akcije agenta — odluke koje agent donosi u zadacima zapošljavanja, kreditiranja i medicinske trijaže. Koristi dvije metrike: counterfactual flip rate (koliko se često odluka promijeni kad se promijeni demografski atribut) i action-rate disparity (razlika u stopi akcija među skupinama). Testira četiri agentska scaffolda, od jednostavnih do onih s alatima.
Koji su ključni nalazi?
U pilotu od 864 odluke, Claude Haiku nije pokazao demografski efekt iznad razine statističkog šuma. Rad dodatno upozorava na metodološku zamku: naivna usporedba šest demografskih skupina može precijeniti nejednakost otprilike 2,4 puta zbog statističkog artefakta. Dizajn je niskobudžetan i reproducibilan, što olakšava nezavisno ponavljanje testova.
Zašto je to relevantno za regulaciju?
Benchmark izravno adresira zahtjeve EU AI Akta za revizijom pravednosti visokorizičnih sustava. Kako agenti preuzimaju odluke s materijalnim posljedicama, mjerenje pristranosti na razini akcija postaje preduvjet za usklađenost i povjerenje.
Česta pitanja
- Što mjeri AgentFairBench?
- Demografsku nejednakost u akcijama LLM agenata kroz zapošljavanje, kreditiranje i medicinsku trijažu, ne samo u tekstualnim odgovorima.
- Koje metrike koristi?
- Counterfactual flip rate i action-rate disparity, uz testiranje četiri agentska scaffolda.
Povezane vijesti
arXiv:2606.17005: Bayesov okvir za reviziju otkriva da ljestvice AI modela kriju nekompatibilne povijesti
UK AI Safety Institute: Nadzor nad naprednim AI sustavima postaje sve teži — 20+ putanja degradacije identificirano
EU AI Office: nacrt smjernica za klasifikaciju visokorizičnih AI sustava