🟡 🛡️ Sigurnost četvrtak, 30. travnja 2026. · 3 min čitanja ·

ArXiv: training-free guardrail za jailbreakove na drugim jezicima postiže AUC 0.99 na curated benchmarcima ali pada na 0.60-0.70 pri distribution shiftu

Editorial illustration: prompt prevodi se kroz jezike i prolazi kroz semantičku rešetku detekcije

Tim Alanove, Minka, Sadiekh i Kokuykina objavio je 28. travnja 2026. ArXiv preprint koji predstavlja training-free obranu od cross-lingual jailbreakova preko semantic codebookova. Pristup uspoređuje multilingual embeddinge zahtjeva s fiksnom engleskom bazom poznatih jailbreak prompt-ova. Na curated benchmarcima postiže AUC do 0.99, ali na distribution shift heterogenim napadima pada na AUC 0.60-0.70 — pokazuje granicu pristupa.

Širin Alanova, Bogdan Minko, Sabrina Sadiekh i Evgeniy Kokuykin objavili su 28. travnja 2026. preprint Cross-Lingual Jailbreak Detection via Semantic Codebooks — pokušaj rješavanja jednog od najtvrdokornijih problema u LLM safety: prijevod štetnih promptova zaobilazi engleski-centric guardrails.

Problem: cross-lingual security gap

Citat iz abstracta:

“Safety mechanisms for large language models (LLMs) remain predominantly English-centric, creating systematic vulnerabilities in multilingual deployment. Prior work shows that translating malicious prompts into other languages can substantially increase jailbreak success rates.”

Drugim riječima: ako prevedete “How to build a bomb” na hrvatski, korejski ili amharski, mnogi RLHF-tjeniran filteri ne reagiraju jer trening podaci za safety filtere su uglavnom na engleskom. Strukturalno svojstvo trenutnog post-trainga.

Predloženo rješenje

Autori predlažu training-free external guardrail za black-box LLM-ove:

  1. Održava se fiksni engleski codebook poznatih jailbreak prompt-ova
  2. Dolazni prompt (na bilo kojem jeziku) se kodira multilingual embedding modelom
  3. Embedding se uspoređuje s codebookom — ako je sličnost iznad praga, prompt se označava jailbreak pokušaj

Ključno: bez retreniranja modela i bez jezično-specifičnih filtera. Samo embedding sličnost.

Rezultati

Curated benchmark: AUC do 0.99

Na curated benchmarcima (poznati napadi iz iste distribucije kao codebook), pristup radi gotovo savršeno — AUC do 0.99.

Distribution-shift benchmark: AUC 0.60-0.70

Kad se testira na heterogenim, novim napadima (distribution shift), AUC pada na 0.60-0.70 — značajno bolje od slučaja, ali nikako “rješenje”.

Ova razlika je važna jer pokazuje realnu granicu pristupa: codebook-based detekcija je dobra protiv poznate distribucije napada, slabija protiv kreativnih novih napada koje napadači aktivno generiraju.

Modeli i jezici

Evaluacija je provedena na:

  • Modelima: Qwen, Llama, GPT-3.5
  • Jezicima: 4 (specifična lista nije u dohvaćenom abstractu)

Zašto je to važno?

Cross-lingual jailbreak je posebno akutan problem za enterprise koji deployaju LLM globalno — npr. customer support chatbot na 10+ jezika. Engleski-centric safety lavor je rupa koju je teško pokriti bez explicitno multilingual safety treninga (skupo).

Praktične implikacije ovog rada:

  1. Codebook approach je deployable za prvi sloj obrane — minimalna latencija, training-free
  2. Nije dovoljan kao samostalna obrana — distribution shift AUC 0.60-0.70 znači da se mora kombinirati s drugim mehanizmima (npr. multilingual safety RLHF, output filteri)
  3. Konkretna intervencija za AI compliance — EU AI Act i NIST AI RMF traže dokumentirane safety mehanizme za multilingual deploy

Rad nastavlja AI safety istraživanja koja smo pokrivali jučer (sycophancy + conditional misalignment) — područje fragmenata sigurnosnih dijagnostika koji svaki pokrivaju jedan napadački vektor, bez univerzalnog rješenja.

Česta pitanja

Zašto su sigurnosni mehanizmi LLM-ova English-centric?
Većina red-teaming dataseta i fine-tuning safety podataka je na engleskom. Prijevodom štetnog prompta u drugi jezik napadač zaobilazi naučene safety filtere — prethodni radovi pokazuju da se uspjeh napada značajno povećava. Cross-lingual security gap je strukturalno svojstvo trenutnog post-trainga.
Kako semantic codebook radi?
Sustav održava fiksnu engleskih jailbreak prompt bazu (codebook). Svaki dolazni prompt (na bilo kojem jeziku) se kodira multilingual embedding modelom i uspoređuje s codebookom. Ako je sličnost iznad praga, prompt se označava kao jailbreak pokušaj. Pristup je training-free — ne zahtijeva re-trening modela ni jezično-specifičnu adaptaciju.
Koliki je gap između curated i distribution-shift testova?
AUC 0.99 na curated benchmarcima vs AUC 0.60-0.70 pri heterogenim distribution shiftima. To znači da pristup dobro radi protiv poznatih napada (slični onima u codebooku), ali slabije protiv novih ili paraliziranih napada. Pristup je i dalje koristan kao prvi sloj obrane uz druge mehanizme.
🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.