Paradoks sigurnosti — Posterior Attack na LLM

Rad na arXivu pokazuje da sigurnosno poravnanje (safety alignment) paradoksalno stvara ranjivost u velikim jezičnim modelima. 'Posterior Attack' je single-query jailbreak koji iskorištava sposobnost modela da prepozna štetan sadržaj. Testiran je na 30 open-source LLM-ova te frontier modelima poput GPT-5 i Claude 4.6.

Rad arXiv:2606.05614 (v1, 4. lipnja 2026., 02:36 UTC) pokazuje da sigurnosno poravnanje (safety alignment) paradoksalno stvara ranjivost u velikim jezičnim modelima. Središnji doprinos rada je “Posterior Attack”, single-query jailbreak koji iskorištava upravo sposobnost modela da prepozna štetan sadržaj.

Što tvrdi “paradoks sigurnosti”?

Temeljna teza rada jest da sigurnosno poravnanje — postupak kojim se modeli usklađuju da odbijaju štetne zahtjeve — paradoksalno otvara novu ranjivost. Umjesto da veća sigurnosna svjesnost znači veću otpornost, autori pokazuju obrnut odnos: što je model bolji u prepoznavanju štetnog sadržaja, to je podložniji napadu koji tu sposobnost iskorištava. Otud naziv “paradoks sigurnosti”.

Kako funkcionira Posterior Attack?

Posterior Attack je single-query jailbreak, što znači da napad uspijeva jednim upitom, bez višekoračnih manipulacija. Napad iskorištava sposobnost modela da prepozna štetan sadržaj — dakle, samu sigurnosnu prosudbu modela koristi kao polugu. Time se mehanizam koji bi trebao štititi model preokreće u vektor kroz koji se zaštita zaobilazi.

Na kojim je modelima napad provjeren?

Autori su Posterior Attack testirali na širokom uzorku. Obuhvaćeno je 30 open-source LLM-ova te frontier modeli, uključujući GPT-5 i Claude 4.6. Rezultati su konzistentni: jača sposobnost sigurnosne prosudbe povećava podložnost napadu. Drugim riječima, modeli s razvijenijom sigurnosnom svjesnošću pokazali su se ranjivijima na ovaj specifični napad.

Kakvi dokazi potkrepljuju tezu?

Rad tezu potkrepljuje na dva načina — analitički i empirijski. Kroz RL (reinforcement learning, pojačano učenje) eksperimente autori pokazuju izravnu vezu: degradacija sigurnosne svjesnosti smanjuje ranjivost, dok njeno jačanje ranjivost pojačava. Ta kontrolirana manipulacija sigurnosne svjesnosti i mjerenje njezina učinka na podložnost napadu čine empirijsku jezgru rada.

Zašto je nalaz važan za sigurnost AI-a?

Nalaz je važan jer dovodi u pitanje intuiciju da je “više sigurnosnog poravnanja uvijek bolje”. Ako jačanje sigurnosne svjesnosti istovremeno otvara novi napadni vektor, razvojni timovi moraju pažljivije balansirati sigurnosne mehanizme i razmotriti obrane otporne na napade poput Posterior Attacka. Činjenica da su pogođeni i frontier modeli poput GPT-5 i Claude 4.6 pokazuje da je riječ o sistemskom, a ne izoliranom problemu.

Česta pitanja

Što je 'Posterior Attack'?

Posterior Attack je single-query jailbreak koji iskorištava samu sposobnost modela da prepozna štetan sadržaj. Drugim riječima, sigurnosna prosudba koja bi trebala štititi model postaje vektor napada koji ga čini ranjivijim.

Na kojim je modelima rad testiran?

Rad je testiran na 30 open-source LLM-ova te na frontier modelima, uključujući GPT-5 i Claude 4.6. Rezultati pokazuju da jača sposobnost sigurnosne prosudbe povećava podložnost napadu.

U čemu je 'paradoks sigurnosti'?

Paradoks je u tome što sigurnosno poravnanje, koje treba smanjiti rizik, zapravo stvara ranjivost. Autori analitički i RL eksperimentima pokazuju da degradacija sigurnosne svjesnosti smanjuje ranjivost, dok njeno jačanje napad pojačava.

arXiv:2606.05614: Paradoks sigurnosti — jača sigurnosna svjesnost čini LLM-ove ranjivijima