arXiv:2606.05614: Paradoks sigurnosti — jača sigurnosna svjesnost čini LLM-ove ranjivijima
Rad na arXivu pokazuje da sigurnosno poravnanje (safety alignment) paradoksalno stvara ranjivost u velikim jezičnim modelima. 'Posterior Attack' je single-query jailbreak koji iskorištava sposobnost modela da prepozna štetan sadržaj. Testiran je na 30 open-source LLM-ova te frontier modelima poput GPT-5 i Claude 4.6.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Rad arXiv:2606.05614 (v1, 4. lipnja 2026., 02:36 UTC) pokazuje da sigurnosno poravnanje (safety alignment) paradoksalno stvara ranjivost u velikim jezičnim modelima. Središnji doprinos rada je “Posterior Attack”, single-query jailbreak koji iskorištava upravo sposobnost modela da prepozna štetan sadržaj.
Što tvrdi “paradoks sigurnosti”?
Temeljna teza rada jest da sigurnosno poravnanje — postupak kojim se modeli usklađuju da odbijaju štetne zahtjeve — paradoksalno otvara novu ranjivost. Umjesto da veća sigurnosna svjesnost znači veću otpornost, autori pokazuju obrnut odnos: što je model bolji u prepoznavanju štetnog sadržaja, to je podložniji napadu koji tu sposobnost iskorištava. Otud naziv “paradoks sigurnosti”.
Kako funkcionira Posterior Attack?
Posterior Attack je single-query jailbreak, što znači da napad uspijeva jednim upitom, bez višekoračnih manipulacija. Napad iskorištava sposobnost modela da prepozna štetan sadržaj — dakle, samu sigurnosnu prosudbu modela koristi kao polugu. Time se mehanizam koji bi trebao štititi model preokreće u vektor kroz koji se zaštita zaobilazi.
Na kojim je modelima napad provjeren?
Autori su Posterior Attack testirali na širokom uzorku. Obuhvaćeno je 30 open-source LLM-ova te frontier modeli, uključujući GPT-5 i Claude 4.6. Rezultati su konzistentni: jača sposobnost sigurnosne prosudbe povećava podložnost napadu. Drugim riječima, modeli s razvijenijom sigurnosnom svjesnošću pokazali su se ranjivijima na ovaj specifični napad.
Kakvi dokazi potkrepljuju tezu?
Rad tezu potkrepljuje na dva načina — analitički i empirijski. Kroz RL (reinforcement learning, pojačano učenje) eksperimente autori pokazuju izravnu vezu: degradacija sigurnosne svjesnosti smanjuje ranjivost, dok njeno jačanje ranjivost pojačava. Ta kontrolirana manipulacija sigurnosne svjesnosti i mjerenje njezina učinka na podložnost napadu čine empirijsku jezgru rada.
Zašto je nalaz važan za sigurnost AI-a?
Nalaz je važan jer dovodi u pitanje intuiciju da je “više sigurnosnog poravnanja uvijek bolje”. Ako jačanje sigurnosne svjesnosti istovremeno otvara novi napadni vektor, razvojni timovi moraju pažljivije balansirati sigurnosne mehanizme i razmotriti obrane otporne na napade poput Posterior Attacka. Činjenica da su pogođeni i frontier modeli poput GPT-5 i Claude 4.6 pokazuje da je riječ o sistemskom, a ne izoliranom problemu.
Česta pitanja
- Što je 'Posterior Attack'?
- Posterior Attack je single-query jailbreak koji iskorištava samu sposobnost modela da prepozna štetan sadržaj. Drugim riječima, sigurnosna prosudba koja bi trebala štititi model postaje vektor napada koji ga čini ranjivijim.
- Na kojim je modelima rad testiran?
- Rad je testiran na 30 open-source LLM-ova te na frontier modelima, uključujući GPT-5 i Claude 4.6. Rezultati pokazuju da jača sposobnost sigurnosne prosudbe povećava podložnost napadu.
- U čemu je 'paradoks sigurnosti'?
- Paradoks je u tome što sigurnosno poravnanje, koje treba smanjiti rizik, zapravo stvara ranjivost. Autori analitički i RL eksperimentima pokazuju da degradacija sigurnosne svjesnosti smanjuje ranjivost, dok njeno jačanje napad pojačava.