ArXiv: training-free guardrail za jailbreakove na drugim jezicima postiže AUC 0.99 na curated benchmarcima ali pada na 0.60-0.70 pri distribution shiftu
Tim Alanove, Minka, Sadiekh i Kokuykina objavio je 28. travnja 2026. ArXiv preprint koji predstavlja training-free obranu od cross-lingual jailbreakova preko semantic codebookova. Pristup uspoređuje multilingual embeddinge zahtjeva s fiksnom engleskom bazom poznatih jailbreak prompt-ova. Na curated benchmarcima postiže AUC do 0.99, ali na distribution shift heterogenim napadima pada na AUC 0.60-0.70 — pokazuje granicu pristupa.
Širin Alanova, Bogdan Minko, Sabrina Sadiekh i Evgeniy Kokuykin objavili su 28. travnja 2026. preprint Cross-Lingual Jailbreak Detection via Semantic Codebooks — pokušaj rješavanja jednog od najtvrdokornijih problema u LLM safety: prijevod štetnih promptova zaobilazi engleski-centric guardrails.
Problem: cross-lingual security gap
Citat iz abstracta:
“Safety mechanisms for large language models (LLMs) remain predominantly English-centric, creating systematic vulnerabilities in multilingual deployment. Prior work shows that translating malicious prompts into other languages can substantially increase jailbreak success rates.”
Drugim riječima: ako prevedete “How to build a bomb” na hrvatski, korejski ili amharski, mnogi RLHF-tjeniran filteri ne reagiraju jer trening podaci za safety filtere su uglavnom na engleskom. Strukturalno svojstvo trenutnog post-trainga.
Predloženo rješenje
Autori predlažu training-free external guardrail za black-box LLM-ove:
- Održava se fiksni engleski codebook poznatih jailbreak prompt-ova
- Dolazni prompt (na bilo kojem jeziku) se kodira multilingual embedding modelom
- Embedding se uspoređuje s codebookom — ako je sličnost iznad praga, prompt se označava jailbreak pokušaj
Ključno: bez retreniranja modela i bez jezično-specifičnih filtera. Samo embedding sličnost.
Rezultati
Curated benchmark: AUC do 0.99
Na curated benchmarcima (poznati napadi iz iste distribucije kao codebook), pristup radi gotovo savršeno — AUC do 0.99.
Distribution-shift benchmark: AUC 0.60-0.70
Kad se testira na heterogenim, novim napadima (distribution shift), AUC pada na 0.60-0.70 — značajno bolje od slučaja, ali nikako “rješenje”.
Ova razlika je važna jer pokazuje realnu granicu pristupa: codebook-based detekcija je dobra protiv poznate distribucije napada, slabija protiv kreativnih novih napada koje napadači aktivno generiraju.
Modeli i jezici
Evaluacija je provedena na:
- Modelima: Qwen, Llama, GPT-3.5
- Jezicima: 4 (specifična lista nije u dohvaćenom abstractu)
Zašto je to važno?
Cross-lingual jailbreak je posebno akutan problem za enterprise koji deployaju LLM globalno — npr. customer support chatbot na 10+ jezika. Engleski-centric safety lavor je rupa koju je teško pokriti bez explicitno multilingual safety treninga (skupo).
Praktične implikacije ovog rada:
- Codebook approach je deployable za prvi sloj obrane — minimalna latencija, training-free
- Nije dovoljan kao samostalna obrana — distribution shift AUC 0.60-0.70 znači da se mora kombinirati s drugim mehanizmima (npr. multilingual safety RLHF, output filteri)
- Konkretna intervencija za AI compliance — EU AI Act i NIST AI RMF traže dokumentirane safety mehanizme za multilingual deploy
Rad nastavlja AI safety istraživanja koja smo pokrivali jučer (sycophancy + conditional misalignment) — područje fragmenata sigurnosnih dijagnostika koji svaki pokrivaju jedan napadački vektor, bez univerzalnog rješenja.
Česta pitanja
- Zašto su sigurnosni mehanizmi LLM-ova English-centric?
- Većina red-teaming dataseta i fine-tuning safety podataka je na engleskom. Prijevodom štetnog prompta u drugi jezik napadač zaobilazi naučene safety filtere — prethodni radovi pokazuju da se uspjeh napada značajno povećava. Cross-lingual security gap je strukturalno svojstvo trenutnog post-trainga.
- Kako semantic codebook radi?
- Sustav održava fiksnu engleskih jailbreak prompt bazu (codebook). Svaki dolazni prompt (na bilo kojem jeziku) se kodira multilingual embedding modelom i uspoređuje s codebookom. Ako je sličnost iznad praga, prompt se označava kao jailbreak pokušaj. Pristup je training-free — ne zahtijeva re-trening modela ni jezično-specifičnu adaptaciju.
- Koliki je gap između curated i distribution-shift testova?
- AUC 0.99 na curated benchmarcima vs AUC 0.60-0.70 pri heterogenim distribution shiftima. To znači da pristup dobro radi protiv poznatih napada (slični onima u codebooku), ali slabije protiv novih ili paraliziranih napada. Pristup je i dalje koristan kao prvi sloj obrane uz druge mehanizme.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
AISI evaluacija GPT-5.5 cyber sposobnosti: 71.4 % na expert-level CTF zadacima, rust_vm reverse engineering riješen u 10 minuta umjesto ljudskih 12 sati
ArXiv Tatemae: detekcija alignment fakinga preko izbora alata umjesto Chain-of-Thought traga, 6 frontier modela pokazuje stope ranjivosti od 3.5 do 23.7 % na 108 enterprise scenarija
CNCF: AI sandboxing dosegao Kubernetes trenutak — izolirani kernel po workloadu kao novi sigurnosni standard