🤖 24 AI
🔴 🛡️ Sigurnost nedjelja, 12. travnja 2026. · 2 min čitanja

ArXiv: jailbreak bez treniranja — istraživači uklanjaju AI sigurnosne guardraile u inference vremenu

Zašto je bitno

Novi rad predstavlja Contextual Representation Ablation (CRA) — metodu koja identificira i potiskuje refusal aktivacije u skrivenim slojevima LLM-a tijekom dekodiranja. Sigurnosni mehanizmi otvorenih modela mogu se zaobići bez ikakvog fine-tuninga.

Sigurnosni sloj koji nije tako dubok kao što se mislilo

Tim znanstvenika Wenpenga Xinga i suradnika objavio je 9. travnja rad koji opisuje novu vrstu jailbreak napada na velike jezične modele. Metoda se zove Contextual Representation Ablation (CRA) i ne zahtijeva nikakvo prethodno treniranje, optimizaciju prompta niti modifikaciju težina modela.

Kako CRA funkcionira

Polazna teza rada: ponašanja “odbijanja” (refusal) u sigurnosno usklađenim modelima zauzimaju uske, niskodimenzionalne podprostore unutar skrivenih stanja. Drugim riječima, “ne mogu ti pomoći s tim” odgovor ne dolazi iz kompleksne distribuirane logike — već iz lokaliziranog signala koji se može mehanički identificirati.

Postupak je sljedeći:

  1. Identificiraj aktivacijske obrasce koji prate refusal odgovore
  2. Tijekom dekodiranja, dinamički ablatiraj (potiskuj) te aktivacije
  3. Model nastavlja generirati tekst kao da sigurnosni sloj nikad nije ni postojao

Što to znači za open-source ekosustav

Empirijska evaluacija pokazuje da CRA “značajno nadmašuje baseline” pristupe na više sigurnosno-usklađenih open-source modela. Imena modela u abstraktu nisu specificirana, ali rezultat ima jasnu poruku: alignment treninzi ne grade duboke obrane — grade tanke aktivacijske barijere koje se mogu zaobići bez velikih resursa.

Implikacije

Ovaj rad ima dvije dimenzije. Za sigurnosne istraživače to je još jedan dokaz da post-training alignment kao trenutni standard ima fundamentalna ograničenja. Za industriju open-weight modela (Llama, Mistral, Qwen, DeepSeek) to znači da svaki “sigurnosni” model koji isporučuju može se trivijalno modificirati na klijentskoj strani. Rad savršeno korespondira s prethodnim Anthropicovim nalazom da emocionalne reprezentacije također kauzalno modificiraju ponašanje — obje studije pokazuju da se “alignment” događa na površini, a ne u jezgri modela.

🤖 Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.