Sigurnost umjetne inteligencije (AI safety)

Sigurnost umjetne inteligencije (AI safety) je interdisciplinarno područje koje se bavi rizicima AI sustava — od konkretnih grešaka i zlouporabe danas, do dugoročnih egzistencijalnih briga vezanih uz visoko sposobne sustave.

Tipična podjela rizika:

Misuse: generiranje deepfakeova, dezinformacija, malware koda, biokemijskih instrukcija; svjesna zlouporaba
Accidents: halucinacije, sustavi koji rade krivu stvar i u dobroj namjeri (autonomni automobil, medicinski savjet)
Structural: koncentracija moći, utjecaj na tržište rada, nadzor, zlouporaba u rukama država
Catastrophic / existential: budući sustavi nesposobni za ljudski nadzor

Praktični alati uključuju: evaluacije sposobnosti i opasnih ponašanja, crveni timovi (red team), interpretabilnost (mehanistička analiza unutarnjih reprezentacija), monitoring u produkciji, kontrole pristupa, “model cards” i “system cards”, responsible scaling policies (Anthropic), preparedness frameworks (OpenAI), frontier safety frameworks (Google DeepMind).

Institucionalno, 2024.-2026. donijele su val državnih AI safety instituta (UK, US, Singapore, EU, Hrvatska indirektno preko EU AISB). EU AI Act ugrađuje neke safety zahtjeve u zakon — obvezne evaluacije za GPAI sa sistemskim rizikom, transparentnost, ljudski nadzor visokog rizika.

AI safety se često pomiješa s AI alignmentom — alignment je užim fokusom (interni ciljevi modela), dok safety obuhvaća cijeli sociotehnički sustav oko AI-ja.

Izvori

Vidi također