Sigurnost
Sigurnost umjetne inteligencije (AI safety)
Šire područje koje pokriva tehničke, organizacijske i politike rizike AI sustava — od pogrešaka i zlouporabe do dugoročnih egzistencijalnih briga.
Sigurnost umjetne inteligencije (AI safety) je interdisciplinarno područje koje se bavi rizicima AI sustava — od konkretnih grešaka i zlouporabe danas, do dugoročnih egzistencijalnih briga vezanih uz visoko sposobne sustave.
Tipična podjela rizika:
- Misuse: generiranje deepfakeova, dezinformacija, malware koda, biokemijskih instrukcija; svjesna zlouporaba
- Accidents: halucinacije, sustavi koji rade krivu stvar i u dobroj namjeri (autonomni automobil, medicinski savjet)
- Structural: koncentracija moći, utjecaj na tržište rada, nadzor, zlouporaba u rukama država
- Catastrophic / existential: budući sustavi nesposobni za ljudski nadzor
Praktični alati uključuju: evaluacije sposobnosti i opasnih ponašanja, crveni timovi (red team), interpretabilnost (mehanistička analiza unutarnjih reprezentacija), monitoring u produkciji, kontrole pristupa, “model cards” i “system cards”, responsible scaling policies (Anthropic), preparedness frameworks (OpenAI), frontier safety frameworks (Google DeepMind).
Institucionalno, 2024.-2026. donijele su val državnih AI safety instituta (UK, US, Singapore, EU, Hrvatska indirektno preko EU AISB). EU AI Act ugrađuje neke safety zahtjeve u zakon — obvezne evaluacije za GPAI sa sistemskim rizikom, transparentnost, ljudski nadzor visokog rizika.
AI safety se često pomiješa s AI alignmentom — alignment je užim fokusom (interni ciljevi modela), dok safety obuhvaća cijeli sociotehnički sustav oko AI-ja.