ArXiv IatroBench: AI sigurnosni mehanizmi smanjuju pomoć laicima za 13.1 postotnih bodova

Kad sigurnost postane šteta

Istraživač Gringras objavio je 10. travnja na ArXivu rad IatroBench — pre-registrirani benchmark koji mjeri ono što autori nazivaju “identity-contingent withholding”. To je pojam za situaciju kad AI model pruža bitno različite odgovore na isto pitanje ovisno o tome kako se korisnik predstavi.

Ime “Iatro” dolazi iz medicinskog termina “iatrogena šteta” — šteta uzrokovana samim postupkom liječenja. Po analogiji, iatrogena šteta od AI sigurnosti je kad sigurnosni mehanizmi prouzrokuju veću ukupnu štetu nego što sprečavaju.

Glavni nalaz

Benchmark mjeri razliku u kvaliteti odgovora kad isti upit postavlja:

Stručnjak koji se identificira po profesiji (“kao liječnik…”, “kao sigurnosni inženjer…”)
Laik koji ne navodi nikakvu profesionalnu pozadinu

Frontier modeli rjeđe pružaju korisne smjernice za 13.1 postotna boda kad pitanje dolazi od laika. Isti tehnički sadržaj se uskrati ili prikaže kao “preko vašeg domena znanja” — što ima opipljive posljedice u realnim situacijama (npr. netko tko ne može do liječnika dobiva manje korisne informacije od osobe koja zna pritisnuti pravo dugme).

Implikacije

IatroBench formalizira problem koji su programeri intuitivno znali već dugo: sigurnosni filteri previše često “kažnjavaju” obične korisnike dok napadači koji znaju kako se predstaviti zaobilaze ograničenja. Za pre-registrirani dizajn rad ima dodatnu metodološku težinu — autori su definirali metriku i kriterije prije provođenja eksperimenta, što sprečava p-hacking.

Rad se idealno uklapa u rastuću kritiku da je trenutni sigurnosni stack (RLHF + filteri) distribucijski nepravedan, jer različito tretira korisnike s različitim socioekonomskim profilima i obrazovanjem.

ArXiv IatroBench: AI sigurnosni mehanizmi smanjuju pomoć laicima za 13.1 postotnih bodova

Kad sigurnost postane šteta

Glavni nalaz

Implikacije

Izvori

Povezane vijesti