arXiv:2605.04572: SQSD otkriva da i bezopasni fine-tuning urušava sigurnost modela
Rad prihvaćen na ICML 2026 predstavlja SQSD — metodu za kvantifikaciju utjecaja pojedinog uzorka na urušavanje sigurnosti modela. Istraživači pokazuju da i naizgled bezopasni fine-tuning uzorci kumulativno pomiču parametre prema 'danger-aligned' smjerovima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim autora Xiao Wang, Yifei Zhang, YongKang Liu, Xiaocui Yang, Zihan Wang, Shi Feng i Daling Wang objavio je 6. svibnja 2026. rad pod oznakom arXiv:2605.04572, prihvaćen na ICML 2026, u kojem predstavlja SQSD (Sample-level Quantification of Safety Degradation) — metodu za kvantifikaciju doprinosa pojedinog uzorka urušavanju sigurnosti tijekom fine-tuninga velikih jezičnih modela.
Glavni nalaz: i bezopasni uzorci urušavaju sigurnost
Prema apstraktu, “bezopasni fine-tuning uzrokuje kumulativni pomak parametara prema ‘danger-aligned’ smjerovima, što postupno potkopava sigurnost modela”. Drugim riječima, čak i kad razvojni tim koristi naizgled neutralne podatke za fino podešavanje, rezultat može biti urušavanje sigurnosnih ponašanja koje je model usvojio kroz preference training (RLHF, DPO i slične metode).
Kako SQSD radi?
SQSD izračunava risk score po uzorku mjereći kako ažuriranja parametara koja proizlaze iz tog uzorka projiciraju na sigurnosne odnosno opasne smjerove u prostoru parametara. Uzorci čije ažuriranje povlači parametre prema opasnim smjerovima dobivaju visoki risk score, čak i ako je sam tekstualni sadržaj benign. Time se identificiraju uzorci koji najviše doprinose eroziji sigurnosti.
Transferabilnost preko arhitektura
Eksperimenti pokazuju “snažnu transferabilnost preko različitih veličina modela, arhitektura i parameter-efficient pristupa treniranja” (LoRA, prefix-tuning i sl.). To znači da se metoda ne mora kalibrirati zasebno za svaku kombinaciju modela i tehnike treniranja.
Zašto je ovo važno?
Postojeća praksa fine-tuninga oslanja se na pretpostavku da benign datasetovi ne ugrožavaju sigurnost. SQSD pokazuje da je ta pretpostavka netočna na razini parametara — i otvara mogućnost da se prije pokretanja fine-tuning posla provede risk scoring i izbace ili reweighta uzorci koji najviše doprinose drift-u prema opasnim smjerovima. To je praktičan alat za organizacije koje fine-tunaju otvorene modele za interne potrebe.
Česta pitanja
- Što je SQSD?
- Sample-level Quantification of Safety Degradation — metoda koja izračunava risk score za svaki pojedini fine-tuning uzorak na temelju njegovog utjecaja na pomak parametara prema sigurnosnim ili opasnim smjerovima.
- Što je ICML?
- International Conference on Machine Learning — jedna od tri vodeće akademske konferencije u području strojnog učenja.
- Što je glavni nalaz rada?
- I bezopasni fine-tuning uzorci uzrokuju kumulativni pomak parametara prema 'danger-aligned' smjerovima, čime postupno potkopavaju sigurnosnu poravnatost modela.
Povezane vijesti
OpenAI: kako sigurno pokrenuti Codex u produkciji — sandbox, approvals i agent telemetrija
OpenAI: GPT-5.5 i GPT-5.5-Cyber proširuju Trusted Access for Cyber program
arXiv:2605.04019: automatizirani red teaming agent postiže 85 % uspjeha protiv Mete Llama Scout uz 45+ napada i 450+ transformacija