arXiv:2605.04572: SQSD, 무해한 파인튜닝도 모델 안전성을 손상시킨다는 것을 밝혀
ICML 2026에 채택된 이 논문은 SQSD — 파인튜닝 중 모델 안전성 손상에 대한 개별 샘플의 기여를 정량화하는 방법을 발표합니다. 연구자들은 겉보기에 무해한 파인튜닝 샘플도 누적적으로 파라미터를 '위험 정렬' 방향으로 이동시킨다는 것을 보여줍니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
저자 팀(Xiao Wang, Yifei Zhang, YongKang Liu, Xiaocui Yang, Zihan Wang, Shi Feng, Daling Wang)은 2026년 5월 6일 ICML 2026에 채택된 arXiv:2605.04572 번호의 논문을 발표했습니다. 이 논문에서는 대규모 언어 모델 파인튜닝 중 안전성 손상에 대한 개별 샘플의 기여를 정량화하는 SQSD(샘플 수준 안전성 저하 정량화)를 소개합니다.
주요 발견: 무해한 샘플도 안전성을 손상시킨다
초록에 따르면, 「무해한 파인튜닝은 파라미터를 ‘위험 정렬’ 방향으로 누적적으로 이동시켜 모델 안전성을 점진적으로 약화시킨다」고 합니다. 다시 말해, 개발팀이 겉보기에 중립적인 데이터를 사용해 미세 조정하더라도, 그 결과로 모델이 선호도 훈련(RLHF, DPO 등의 방법)을 통해 획득한 안전성 동작이 손상될 수 있습니다.
SQSD는 어떻게 작동합니까?
SQSD는 해당 샘플에서 발생하는 파라미터 업데이트가 파라미터 공간에서 안전 방향과 위험 방향으로 어떻게 투영되는지 측정하여 샘플당 위험 점수를 계산합니다. 텍스트 내용 자체는 양성이더라도, 파라미터 업데이트가 위험한 방향을 끌어당기는 샘플은 높은 위험 점수를 받습니다. 이를 통해 안전성 침식에 가장 많이 기여하는 샘플을 식별할 수 있습니다.
아키텍처를 넘나드는 전이 가능성
실험은 「다양한 모델 크기, 아키텍처, 파라미터 효율적 훈련 방법(LoRA, 프리픽스 튜닝 등)에 걸쳐 강한 전이 가능성」을 보여줍니다. 이는 모델과 훈련 기법의 각 조합에 대해 별도로 보정할 필요가 없다는 것을 의미합니다.
왜 중요합니까?
기존 파인튜닝 관행은 양성 데이터셋이 안전성을 위협하지 않는다는 가정에 의존합니다. SQSD는 이 가정이 파라미터 수준에서는 잘못되었다는 것을 보여주며, 파인튜닝 작업을 시작하기 전에 위험 점수를 수행하고 위험한 방향으로의 드리프트에 가장 많이 기여하는 샘플을 제외하거나 재가중할 가능성을 열어줍니다. 이는 내부 목적으로 오픈 모델을 파인튜닝하는 조직을 위한 실용적인 도구입니다.
자주 묻는 질문
- SQSD란 무엇입니까?
- 샘플 수준 안전성 저하 정량화(Sample-level Quantification of Safety Degradation) — 각 파인튜닝 샘플이 파라미터를 안전하거나 위험한 방향으로 이동시키는 영향에 기반해 위험 점수를 계산하는 방법입니다.
- ICML이란 무엇입니까?
- 국제 기계 학습 학회(International Conference on Machine Learning) — 기계 학습 분야의 3대 주요 학술 학회 중 하나입니다.
- 논문의 주요 발견은 무엇입니까?
- 무해한 파인튜닝 샘플도 파라미터를 '위험 정렬' 방향으로 누적적으로 이동시켜 모델의 안전성 정렬을 점진적으로 약화시킵니다.