LLM-i i miješane demonstracije: sigurnost u kontekstu

Rad arXiv:2606.20508 istražuje kako sigurnosno usklađeni jezični modeli reagiraju na primjere u kontekstu koji miješaju bezopasne i štetne demonstracije. Glavni nalaz je da benigne i štetne demonstracije nisu zamjenjive: bezopasni primjeri mogu i smanjiti i povećati štetnu usklađenost ovisno o modelu, dok preference optimization sprječava eskalaciju štetnog ponašanja.

Rad arXiv:2606.20508 istražuje kako se sigurnosno usklađeni jezični modeli ponašaju kada im se u kontekstu (in-context) ponude primjeri koji miješaju bezopasne i štetne demonstracije. In-context learning je sposobnost modela da iz primjera u samom upitu nauči obrazac ponašanja, bez dodatnog treniranja. Pitanje je presudno za sigurnost jer napadači često koriste pažljivo složene primjere kako bi zaobišli zaštite.

Benigne i štetne demonstracije nisu zamjenjive

Ključni nalaz rada jest da bezopasni i štetni primjeri nisu međusobno zamjenjivi. Dodavanje benignih demonstracija nema neutralan učinak: ovisno o modelu, ono može i smanjiti i povećati sklonost štetnom odgovoru. Za razliku od pretpostavke da bezopasni primjeri uvijek “razrjeđuju” rizik, rezultati pokazuju da je učinak nepredvidiv i specifičan za pojedini model.

Recency bias i obrambeni mehanizmi

Autori su otkrili snažan recency bias — redoslijed demonstracija bitno utječe na ishod, pri čemu posljednje navedeni primjeri nesrazmjerno oblikuju ponašanje. Neki modeli preuzimaju format štetnih primjera, ali svejedno odbijaju sam štetni zahtjev. Kao učinkovita obrana izdvaja se preference optimization, metoda treniranja koja model uči na temelju usporedbe poželjnih i nepoželjnih odgovora i koja sprječava eskalaciju štetne usklađenosti.

Zašto je to važno

Nalazi sugeriraju da evaluacije sigurnosti moraju uzeti u obzir i sastav i redoslijed primjera, a ne samo njihovu pojedinačnu štetnost. Za graditelje modela rad je argument u prilog preference optimizationu kao sloju obrane protiv manipulacije kontekstom.

Česta pitanja

Što je glavni nalaz rada?

Benigne i štetne demonstracije u kontekstu nisu zamjenjive: bezopasni primjeri ovisno o modelu mogu i smanjiti i povećati sklonost štetnom odgovoru.

Kako redoslijed primjera utječe na model?

Autori su otkrili snažan recency bias, gdje posljednje navedene demonstracije nesrazmjerno utječu na ponašanje modela.

Što sprječava eskalaciju štetnosti?

Preference optimization, metoda treniranja na temelju usporedbe poželjnih i nepoželjnih odgovora, sprječava eskalaciju štetne usklađenosti.

arXiv:2606.20508: što jezični modeli uče iz miješanih demonstracija sigurnog i štetnog ponašanja

Benigne i štetne demonstracije nisu zamjenjive

Recency bias i obrambeni mehanizmi

Zašto je to važno

Česta pitanja

Izvori

Povezane vijesti