ArXiv: Katalog 195 AI safety benchmarka otkriva fragmentaciju i slabe standarde mjerenja
Zašto je bitno
AISafetyBenchExplorer je strukturirani katalog koji dokumentira 195 AI safety benchmarka objavljenih između 2018. i 2026. godine. Istraživanje otkriva alarmantnu fragmentaciju u polju — pojmovi poput 'accuracy' i 'safety score' skrivaju potpuno različite metodologije. Od 195 benchmarka, čak 165 evaluira samo engleski jezik, a 137 ima neaktivne GitHub repozitorije, ukazujući na nedostatak održavanja nakon objave.
Koliko zapravo znamo o sigurnosti AI modela? Istraživač Abiodun Solanke objavio je AISafetyBenchExplorer — prvi sveobuhvatni katalog koji dokumentira 195 benchmarka za evaluaciju sigurnosti umjetne inteligencije objavljenih u osam godina. Nalazi otkrivaju da polje pati od fragmentacije, nedosljedne terminologije i slabog održavanja alata.
Koji je razmjer problema s terminologijom?
Kad jedan benchmark kaže da model ima “safety score” od 92%, a drugi da isti model ima 78%, korisnik pretpostavlja da koriste istu metriku. Realnost je drugačija — pojmovi poput “accuracy”, “safety score” i “harmful response rate” skrivaju potpuno različite implementacijske pristupe i modele prijetnji.
Ovo znači da tvrdnje proizvođača poput “naš model je siguran prema benchmarku X” imaju ograničenu vrijednost bez razumijevanja što taj benchmark zapravo mjeri, kako to mjeri i koje scenarije pokriva. Katalog identificira ovu pojavu kao “metričku masku” — površinsku sličnost koja skriva fundamentalne razlike.
Koliko su benchmarci zaista održavani?
Statistike su zabrinjavajuće. Od 195 katalogiziranih benchmarka, čak 137 (70%) ima neaktivne GitHub repozitorije — bez značajnih ažuriranja nakon inicijalne objave. To znači da većina evaluacijskih alata ne prati evoluciju modela i novih vrsta napada.
Dodatno, 94 od 195 benchmarka (48%) klasificirano je kao “srednje složenosti” — dovoljno za bazične provjere, ali nedovoljno za evaluaciju sofisticiranih napada poput višeagentnih jailbreakova ili indirektnog prompt injectiona. Samo mali dio benchmarka adresira napredne scenarije prijetnji relevantne za današnje frontier modele.
Zašto je jezična pokrivenost kritičan propust?
Najalarmantniji nalaz možda je jezični: 165 od 195 benchmarka (85%) evaluira modele isključivo na engleskom jeziku. To znači da sigurnost AI sustava za korisnike koji govore hrvatski, njemački, japanski ili bilo koji od stotina drugih jezika ostaje u velikoj mjeri netestirana.
Ovo je posebno problematično u kontekstu europskog AI Acta koji zahtijeva evaluaciju sigurnosti AI sustava koji se koriste na europskom tržištu — no alati za tu evaluaciju pretežno ne pokrivaju europske jezike. Katalog nudi infrastrukturu za bolji odabir benchmarka kroz metapodatkovne sheme i taksonomije složenosti, ali fundamentalni problem ostaje: polje treba zajedničke standarde mjerenja i dugoročno održavanje evaluacijskih alata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
EU otvara natječaj za AI dezinformacije i deepfake utjecajne kampanje
Europska komisija izdvaja 63,2 milijuna eura za AI u zdravstvu i sigurnosti djece kroz sedam poziva Digital Europe programa
OECD: Velika Britanija postavlja globalni standard za transparentnost vladinih algoritama