ArXiv: Katalog 195 AI safety benchmarka otkriva fragmentaciju i slabe standarde mjerenja

AISafetyBenchExplorer je strukturirani katalog koji dokumentira 195 AI safety benchmarka objavljenih između 2018. i 2026. godine. Istraživanje otkriva alarmantnu fragmentaciju u polju — pojmovi poput 'accuracy' i 'safety score' skrivaju potpuno različite metodologije. Od 195 benchmarka, čak 165 evaluira samo engleski jezik, a 137 ima neaktivne GitHub repozitorije, ukazujući na nedostatak održavanja nakon objave.

Koliko zapravo znamo o sigurnosti AI modela? Istraživač Abiodun Solanke objavio je AISafetyBenchExplorer — prvi sveobuhvatni katalog koji dokumentira 195 benchmarka za evaluaciju sigurnosti umjetne inteligencije objavljenih u osam godina. Nalazi otkrivaju da polje pati od fragmentacije, nedosljedne terminologije i slabog održavanja alata.

Koji je razmjer problema s terminologijom?

Kad jedan benchmark kaže da model ima “safety score” od 92%, a drugi da isti model ima 78%, korisnik pretpostavlja da koriste istu metriku. Realnost je drugačija — pojmovi poput “accuracy”, “safety score” i “harmful response rate” skrivaju potpuno različite implementacijske pristupe i modele prijetnji.

Ovo znači da tvrdnje proizvođača poput “naš model je siguran prema benchmarku X” imaju ograničenu vrijednost bez razumijevanja što taj benchmark zapravo mjeri, kako to mjeri i koje scenarije pokriva. Katalog identificira ovu pojavu kao “metričku masku” — površinsku sličnost koja skriva fundamentalne razlike.

Koliko su benchmarci zaista održavani?

Statistike su zabrinjavajuće. Od 195 katalogiziranih benchmarka, čak 137 (70%) ima neaktivne GitHub repozitorije — bez značajnih ažuriranja nakon inicijalne objave. To znači da većina evaluacijskih alata ne prati evoluciju modela i novih vrsta napada.

Dodatno, 94 od 195 benchmarka (48%) klasificirano je kao “srednje složenosti” — dovoljno za bazične provjere, ali nedovoljno za evaluaciju sofisticiranih napada poput višeagentnih jailbreakova ili indirektnog prompt injectiona. Samo mali dio benchmarka adresira napredne scenarije prijetnji relevantne za današnje frontier modele.

Zašto je jezična pokrivenost kritičan propust?

Najalarmantniji nalaz možda je jezični: 165 od 195 benchmarka (85%) evaluira modele isključivo na engleskom jeziku. To znači da sigurnost AI sustava za korisnike koji govore hrvatski, njemački, japanski ili bilo koji od stotina drugih jezika ostaje u velikoj mjeri netestirana.

Ovo je posebno problematično u kontekstu europskog AI Acta koji zahtijeva evaluaciju sigurnosti AI sustava koji se koriste na europskom tržištu — no alati za tu evaluaciju pretežno ne pokrivaju europske jezike. Katalog nudi infrastrukturu za bolji odabir benchmarka kroz metapodatkovne sheme i taksonomije složenosti, ali fundamentalni problem ostaje: polje treba zajedničke standarde mjerenja i dugoročno održavanje evaluacijskih alata.

Česta pitanja

Što je AISafetyBenchExplorer?

To je strukturirani katalog 195 AI safety benchmarka iz perioda 2018.–2026. koji omogućuje usporedbu metodologija, metrika i opsega evaluacijskih alata za sigurnost AI sustava.

Zašto je fragmentacija benchmarka problem?

Različiti benchmarci koriste iste pojmove (poput 'safety score') za potpuno različite stvari, što onemogućuje usporedbu rezultata između modela i otežava regulatorima postavljanje jedinstvenih standarda.

Koliko benchmarka pokriva jezike osim engleskog?

Samo 30 od 195 benchmarka (15%) evaluira modele na jezicima osim engleskog, što znači da sigurnost AI sustava za većinu svjetskih jezika ostaje netestirana.

ArXiv: Katalog 195 AI safety benchmarka otkriva fragmentaciju i slabe standarde mjerenja

Koji je razmjer problema s terminologijom?

Koliko su benchmarci zaista održavani?

Zašto je jezična pokrivenost kritičan propust?

Česta pitanja

Izvori

Povezane vijesti