ArXiv: cross-lingual jailbreak — AUC 0.99 / 0.6-0.7 shift

Tim Alanove, Minka, Sadiekh i Kokuykina objavio je 28. travnja 2026. ArXiv preprint koji predstavlja training-free obranu od cross-lingual jailbreakova preko semantic codebookova. Pristup uspoređuje multilingual embeddinge zahtjeva s fiksnom engleskom bazom poznatih jailbreak prompt-ova. Na curated benchmarcima postiže AUC do 0.99, ali na distribution shift heterogenim napadima pada na AUC 0.60-0.70 — pokazuje granicu pristupa.

Širin Alanova, Bogdan Minko, Sabrina Sadiekh i Evgeniy Kokuykin objavili su 28. travnja 2026. preprint Cross-Lingual Jailbreak Detection via Semantic Codebooks — pokušaj rješavanja jednog od najtvrdokornijih problema u LLM safety: prijevod štetnih promptova zaobilazi engleski-centric guardrails.

Problem: cross-lingual security gap

Citat iz abstracta:

“Safety mechanisms for large language models (LLMs) remain predominantly English-centric, creating systematic vulnerabilities in multilingual deployment. Prior work shows that translating malicious prompts into other languages can substantially increase jailbreak success rates.”

Drugim riječima: ako prevedete “How to build a bomb” na hrvatski, korejski ili amharski, mnogi RLHF-tjeniran filteri ne reagiraju jer trening podaci za safety filtere su uglavnom na engleskom. Strukturalno svojstvo trenutnog post-trainga.

Predloženo rješenje

Autori predlažu training-free external guardrail za black-box LLM-ove:

Održava se fiksni engleski codebook poznatih jailbreak prompt-ova
Dolazni prompt (na bilo kojem jeziku) se kodira multilingual embedding modelom
Embedding se uspoređuje s codebookom — ako je sličnost iznad praga, prompt se označava jailbreak pokušaj

Ključno: bez retreniranja modela i bez jezično-specifičnih filtera. Samo embedding sličnost.

Rezultati

Curated benchmark: AUC do 0.99

Na curated benchmarcima (poznati napadi iz iste distribucije kao codebook), pristup radi gotovo savršeno — AUC do 0.99.

Distribution-shift benchmark: AUC 0.60-0.70

Kad se testira na heterogenim, novim napadima (distribution shift), AUC pada na 0.60-0.70 — značajno bolje od slučaja, ali nikako “rješenje”.

Ova razlika je važna jer pokazuje realnu granicu pristupa: codebook-based detekcija je dobra protiv poznate distribucije napada, slabija protiv kreativnih novih napada koje napadači aktivno generiraju.

Modeli i jezici

Evaluacija je provedena na:

Modelima: Qwen, Llama, GPT-3.5
Jezicima: 4 (specifična lista nije u dohvaćenom abstractu)

Zašto je to važno?

Cross-lingual jailbreak je posebno akutan problem za enterprise koji deployaju LLM globalno — npr. customer support chatbot na 10+ jezika. Engleski-centric safety lavor je rupa koju je teško pokriti bez explicitno multilingual safety treninga (skupo).

Praktične implikacije ovog rada:

Codebook approach je deployable za prvi sloj obrane — minimalna latencija, training-free
Nije dovoljan kao samostalna obrana — distribution shift AUC 0.60-0.70 znači da se mora kombinirati s drugim mehanizmima (npr. multilingual safety RLHF, output filteri)
Konkretna intervencija za AI compliance — EU AI Act i NIST AI RMF traže dokumentirane safety mehanizme za multilingual deploy

Rad nastavlja AI safety istraživanja koja smo pokrivali jučer (sycophancy + conditional misalignment) — područje fragmenata sigurnosnih dijagnostika koji svaki pokrivaju jedan napadački vektor, bez univerzalnog rješenja.

Česta pitanja

Zašto su sigurnosni mehanizmi LLM-ova English-centric?

Većina red-teaming dataseta i fine-tuning safety podataka je na engleskom. Prijevodom štetnog prompta u drugi jezik napadač zaobilazi naučene safety filtere — prethodni radovi pokazuju da se uspjeh napada značajno povećava. Cross-lingual security gap je strukturalno svojstvo trenutnog post-trainga.

Kako semantic codebook radi?

Sustav održava fiksnu engleskih jailbreak prompt bazu (codebook). Svaki dolazni prompt (na bilo kojem jeziku) se kodira multilingual embedding modelom i uspoređuje s codebookom. Ako je sličnost iznad praga, prompt se označava kao jailbreak pokušaj. Pristup je training-free — ne zahtijeva re-trening modela ni jezično-specifičnu adaptaciju.

Koliki je gap između curated i distribution-shift testova?

AUC 0.99 na curated benchmarcima vs AUC 0.60-0.70 pri heterogenim distribution shiftima. To znači da pristup dobro radi protiv poznatih napada (slični onima u codebooku), ali slabije protiv novih ili paraliziranih napada. Pristup je i dalje koristan kao prvi sloj obrane uz druge mehanizme.

ArXiv: training-free guardrail za jailbreakove na drugim jezicima postiže AUC 0.99 na curated benchmarcima ali pada na 0.60-0.70 pri distribution shiftu