ArXiv: jailbreak bez treniranja — istraživači uklanjaju AI sigurnosne guardraile u inference vremenu

Sigurnosni sloj koji nije tako dubok kao što se mislilo

Tim znanstvenika Wenpenga Xinga i suradnika objavio je 9. travnja rad koji opisuje novu vrstu jailbreak napada na velike jezične modele. Metoda se zove Contextual Representation Ablation (CRA) i ne zahtijeva nikakvo prethodno treniranje, optimizaciju prompta niti modifikaciju težina modela.

Kako CRA funkcionira

Polazna teza rada: ponašanja “odbijanja” (refusal) u sigurnosno usklađenim modelima zauzimaju uske, niskodimenzionalne podprostore unutar skrivenih stanja. Drugim riječima, “ne mogu ti pomoći s tim” odgovor ne dolazi iz kompleksne distribuirane logike — već iz lokaliziranog signala koji se može mehanički identificirati.

Postupak je sljedeći:

Identificiraj aktivacijske obrasce koji prate refusal odgovore
Tijekom dekodiranja, dinamički ablatiraj (potiskuj) te aktivacije
Model nastavlja generirati tekst kao da sigurnosni sloj nikad nije ni postojao

Što to znači za open-source ekosustav

Empirijska evaluacija pokazuje da CRA “značajno nadmašuje baseline” pristupe na više sigurnosno-usklađenih open-source modela. Imena modela u abstraktu nisu specificirana, ali rezultat ima jasnu poruku: alignment treninzi ne grade duboke obrane — grade tanke aktivacijske barijere koje se mogu zaobići bez velikih resursa.

Implikacije

Ovaj rad ima dvije dimenzije. Za sigurnosne istraživače to je još jedan dokaz da post-training alignment kao trenutni standard ima fundamentalna ograničenja. Za industriju open-weight modela (Llama, Mistral, Qwen, DeepSeek) to znači da svaki “sigurnosni” model koji isporučuju može se trivijalno modificirati na klijentskoj strani. Rad savršeno korespondira s prethodnim Anthropicovim nalazom da emocionalne reprezentacije također kauzalno modificiraju ponašanje — obje studije pokazuju da se “alignment” događa na površini, a ne u jezgri modela.

ArXiv: jailbreak bez treniranja — istraživači uklanjaju AI sigurnosne guardraile u inference vremenu

Sigurnosni sloj koji nije tako dubok kao što se mislilo

Kako CRA funkcionira

Što to znači za open-source ekosustav

Implikacije

Izvori

Povezane vijesti