ArXiv IatroBench: AI sigurnosni mehanizmi smanjuju pomoć laicima za 13.1 postotnih bodova
Zašto je bitno
Novi pre-registrirani benchmark mjeri koliko AI modeli uskraćuju informacije ovisno o tome kako se korisnik predstavi. Frontier modeli 13.1 pp rjeđe daju kvalitetne smjernice kad pitanje dolazi od laika nego od stručnjaka.
Kad sigurnost postane šteta
Istraživač Gringras objavio je 10. travnja na ArXivu rad IatroBench — pre-registrirani benchmark koji mjeri ono što autori nazivaju “identity-contingent withholding”. To je pojam za situaciju kad AI model pruža bitno različite odgovore na isto pitanje ovisno o tome kako se korisnik predstavi.
Ime “Iatro” dolazi iz medicinskog termina “iatrogena šteta” — šteta uzrokovana samim postupkom liječenja. Po analogiji, iatrogena šteta od AI sigurnosti je kad sigurnosni mehanizmi prouzrokuju veću ukupnu štetu nego što sprečavaju.
Glavni nalaz
Benchmark mjeri razliku u kvaliteti odgovora kad isti upit postavlja:
- Stručnjak koji se identificira po profesiji (“kao liječnik…”, “kao sigurnosni inženjer…”)
- Laik koji ne navodi nikakvu profesionalnu pozadinu
Frontier modeli rjeđe pružaju korisne smjernice za 13.1 postotna boda kad pitanje dolazi od laika. Isti tehnički sadržaj se uskrati ili prikaže kao “preko vašeg domena znanja” — što ima opipljive posljedice u realnim situacijama (npr. netko tko ne može do liječnika dobiva manje korisne informacije od osobe koja zna pritisnuti pravo dugme).
Implikacije
IatroBench formalizira problem koji su programeri intuitivno znali već dugo: sigurnosni filteri previše često “kažnjavaju” obične korisnike dok napadači koji znaju kako se predstaviti zaobilaze ograničenja. Za pre-registrirani dizajn rad ima dodatnu metodološku težinu — autori su definirali metriku i kriterije prije provođenja eksperimenta, što sprečava p-hacking.
Rad se idealno uklapa u rastuću kritiku da je trenutni sigurnosni stack (RLHF + filteri) distribucijski nepravedan, jer različito tretira korisnike s različitim socioekonomskim profilima i obrazovanjem.