ArXiv: jailbreak bez treniranja — istraživači uklanjaju AI sigurnosne guardraile u inference vremenu
Zašto je bitno
Novi rad predstavlja Contextual Representation Ablation (CRA) — metodu koja identificira i potiskuje refusal aktivacije u skrivenim slojevima LLM-a tijekom dekodiranja. Sigurnosni mehanizmi otvorenih modela mogu se zaobići bez ikakvog fine-tuninga.
Sigurnosni sloj koji nije tako dubok kao što se mislilo
Tim znanstvenika Wenpenga Xinga i suradnika objavio je 9. travnja rad koji opisuje novu vrstu jailbreak napada na velike jezične modele. Metoda se zove Contextual Representation Ablation (CRA) i ne zahtijeva nikakvo prethodno treniranje, optimizaciju prompta niti modifikaciju težina modela.
Kako CRA funkcionira
Polazna teza rada: ponašanja “odbijanja” (refusal) u sigurnosno usklađenim modelima zauzimaju uske, niskodimenzionalne podprostore unutar skrivenih stanja. Drugim riječima, “ne mogu ti pomoći s tim” odgovor ne dolazi iz kompleksne distribuirane logike — već iz lokaliziranog signala koji se može mehanički identificirati.
Postupak je sljedeći:
- Identificiraj aktivacijske obrasce koji prate refusal odgovore
- Tijekom dekodiranja, dinamički ablatiraj (potiskuj) te aktivacije
- Model nastavlja generirati tekst kao da sigurnosni sloj nikad nije ni postojao
Što to znači za open-source ekosustav
Empirijska evaluacija pokazuje da CRA “značajno nadmašuje baseline” pristupe na više sigurnosno-usklađenih open-source modela. Imena modela u abstraktu nisu specificirana, ali rezultat ima jasnu poruku: alignment treninzi ne grade duboke obrane — grade tanke aktivacijske barijere koje se mogu zaobići bez velikih resursa.
Implikacije
Ovaj rad ima dvije dimenzije. Za sigurnosne istraživače to je još jedan dokaz da post-training alignment kao trenutni standard ima fundamentalna ograničenja. Za industriju open-weight modela (Llama, Mistral, Qwen, DeepSeek) to znači da svaki “sigurnosni” model koji isporučuju može se trivijalno modificirati na klijentskoj strani. Rad savršeno korespondira s prethodnim Anthropicovim nalazom da emocionalne reprezentacije također kauzalno modificiraju ponašanje — obje studije pokazuju da se “alignment” događa na površini, a ne u jezgri modela.