🟡 🛡️ Sigurnost Objavljeno: · 3 min čitanja ·

HARC: Nova metoda fine-tuninga koja sprječava jailbreak uparivanjem štetnosti i odbijanja

Editorial ilustracija: HARC metoda sparivanja detekcije štetnosti i odbijanja za obranu od jailbreak napada

Istraživači su otkrili zašto jailbreakovi uspijevaju na razini internih reprezentacija modela i razvili HARC fine-tuning metodu koja eksplicitno uparuje „smjerove štetnosti i odbijanja” — postižući najsnažniji omjer robusnosti, sposobnosti i upotrebljivosti među šest testiranih metoda.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Istraživači Shei Pern Chua i Fangzhao Wu objavili su 1. srpnja 2026. rad koji otkriva precizni mehanizam kojim jailbreak napadi zaobilaze sigurnosno poravnanje velikih jezičnih modela — i predlažu konkretno rješenje u obliku nove metode fine-tuninga nazvane HARC.

Zašto jailbreakovi zapravo uspijevaju?

Dosadašnje razumijevanje bilo je uglavnom fenomenološko: znali smo da određene formulacije upita „prevare” model u generiranju štetnog sadržaja, ali mehanizam unutar mreže nije bio jasan. HARC istraživanje rasvjetljuje taj mehanizam interpretabilnom metodologijom.

U poravnanim LLM-ovima postoje (barem) dva odvojena „smjera” u prostoru internih reprezentacija: smjer štetnosti (encoding toga koliko je sadržaj opasan) i smjer odbijanja (encoding toga hoće li model odbiti zahtjev). Ključni nalaz: jailbreakovi uspijevaju potiskivanjem jednog ili drugog smjera — ne nužno oba istovremeno. Napad koji potisne samo smjer odbijanja dovoljan je da model generira štetan sadržaj čak i kada smjer štetnosti ostaje aktivan.

Analiza je dodatno proširena na pozicije tokena u odgovoru, ne samo u promptu. Istraživači su utvrdili da model može prepoznati štetnost sadržaja dok ga generira — čak i kada je inicijalna analiza prompta propustila problem. Ovaj nalaz ima važne implikacije za dizajn sigurnosnih mehanizama koji djeluju isključivo na razini ulaznog prompta.

Različite klase jailbreak napada zauzimaju odvojive regije u ravnini štetnosti-odbijanja — što znači da postoji geometrijska struktura ovih napada u internom prostoru modela, a ne kaotična raznolikost.

HARC: Fine-tuning koji uparuje oba smjera

Umjesto analize, HARC nudi konkretan recept za fine-tuning. Metoda eksplicitno uparuje reprezentacije štetnosti i odbijanja kroz pozicije i prompta i odgovora — prisiljavajući model da odrazi i „vidio sam opasnost” i „odbijam generirati” kao zajednički signal, a ne kao neovisne dimenzije koje se mogu zasebno potisnuti.

Rezultat: model postaje otporan na napade koji ciljaju samo jedan od dva smjera, jer su oni sada tijesno vezani u prostoru reprezentacija.

HARC postiže najjači omjer robusnosti, sposobnosti i upotrebljivosti u usporedbi sa šest baznih metoda koje pokrivaju glavne pristupe sigurnosnom treningu — i to kako na razini treninga (training-time), tako i na razini inferencije (inference-time).

Transferabilnost i praktična primjena

Posebno je važno da HARC ne zahtijeva prilagodbu specifičnoj arhitekturi — metoda je testirana na pet obitelji modela u dvije veličine i prenosi se bez dodatnih izmjena. To čini HARC praktično primjenjivim receptom za postojeće pipelines fine-tuninga, a ne samo laboratorijskim nalazom.

Mehanistički kut istraživanja nudi i širu vrijednost: izravno mapira kako su safety-svjesne reprezentacije organizirane u poravnanim LLM-ovima, što je dragocjen doprinos za interpretabilnost modela neovisno o sigurnosnoj primjeni.

Rad dolazi u trenutku kada industrija intenzivno traži metode koje ne kompromitiraju sposobnost modela radi sigurnosti — HARC demonstrira da oba cilja mogu biti postignuta istovremenim ciljanjem na pravu razinu interne reprezentacije.

Česta pitanja

Što je HARC i čemu služi?
HARC je fine-tuning metoda koja eksplicitno uparuje interne reprezentacije štetnosti i odbijanja LLM-ova, čineći model otpornim na jailbreak napade koji pokušavaju potisnuti samo jedan od ta dva „smjera” u mreži.
Kako jailbreakovi zaobilaze sigurnosno poravnanje?
Istraživanje pokazuje da jailbreakovi rade potiskivanjem ili „smjera odbijanja” ili „smjera štetnosti” u rezidualnom toku modela — ne nužno obaju istovremeno — čime model propušta štetan sadržaj.
Na koliko je modela HARC testiran?
HARC je evaluiran na pet različitih obitelji modela u dvije veličine, a metoda ne zahtijeva prilagodbu specifičnoj arhitekturi i prenosi se između modela.