arXiv:2605.04572: SQSD mjeri sigurnosno urušavanje LLM-a

Rad prihvaćen na ICML 2026 predstavlja SQSD — metodu za kvantifikaciju utjecaja pojedinog uzorka na urušavanje sigurnosti modela. Istraživači pokazuju da i naizgled bezopasni fine-tuning uzorci kumulativno pomiču parametre prema 'danger-aligned' smjerovima.

Tim autora Xiao Wang, Yifei Zhang, YongKang Liu, Xiaocui Yang, Zihan Wang, Shi Feng i Daling Wang objavio je 6. svibnja 2026. rad pod oznakom arXiv:2605.04572, prihvaćen na ICML 2026, u kojem predstavlja SQSD (Sample-level Quantification of Safety Degradation) — metodu za kvantifikaciju doprinosa pojedinog uzorka urušavanju sigurnosti tijekom fine-tuninga velikih jezičnih modela.

Glavni nalaz: i bezopasni uzorci urušavaju sigurnost

Prema apstraktu, “bezopasni fine-tuning uzrokuje kumulativni pomak parametara prema ‘danger-aligned’ smjerovima, što postupno potkopava sigurnost modela”. Drugim riječima, čak i kad razvojni tim koristi naizgled neutralne podatke za fino podešavanje, rezultat može biti urušavanje sigurnosnih ponašanja koje je model usvojio kroz preference training (RLHF, DPO i slične metode).

Kako SQSD radi?

SQSD izračunava risk score po uzorku mjereći kako ažuriranja parametara koja proizlaze iz tog uzorka projiciraju na sigurnosne odnosno opasne smjerove u prostoru parametara. Uzorci čije ažuriranje povlači parametre prema opasnim smjerovima dobivaju visoki risk score, čak i ako je sam tekstualni sadržaj benign. Time se identificiraju uzorci koji najviše doprinose eroziji sigurnosti.

Transferabilnost preko arhitektura

Eksperimenti pokazuju “snažnu transferabilnost preko različitih veličina modela, arhitektura i parameter-efficient pristupa treniranja” (LoRA, prefix-tuning i sl.). To znači da se metoda ne mora kalibrirati zasebno za svaku kombinaciju modela i tehnike treniranja.

Zašto je ovo važno?

Postojeća praksa fine-tuninga oslanja se na pretpostavku da benign datasetovi ne ugrožavaju sigurnost. SQSD pokazuje da je ta pretpostavka netočna na razini parametara — i otvara mogućnost da se prije pokretanja fine-tuning posla provede risk scoring i izbace ili reweighta uzorci koji najviše doprinose drift-u prema opasnim smjerovima. To je praktičan alat za organizacije koje fine-tunaju otvorene modele za interne potrebe.

Česta pitanja

Što je SQSD?

Sample-level Quantification of Safety Degradation — metoda koja izračunava risk score za svaki pojedini fine-tuning uzorak na temelju njegovog utjecaja na pomak parametara prema sigurnosnim ili opasnim smjerovima.

Što je ICML?

International Conference on Machine Learning — jedna od tri vodeće akademske konferencije u području strojnog učenja.

Što je glavni nalaz rada?

I bezopasni fine-tuning uzorci uzrokuju kumulativni pomak parametara prema 'danger-aligned' smjerovima, čime postupno potkopavaju sigurnosnu poravnatost modela.

arXiv:2605.04572: SQSD otkriva da i bezopasni fine-tuning urušava sigurnost modela

Glavni nalaz: i bezopasni uzorci urušavaju sigurnost

Kako SQSD radi?

Transferabilnost preko arhitektura

Zašto je ovo važno?

Česta pitanja

Izvori

Povezane vijesti