🟡 🛡️ セキュリティ 2026年5月8日金曜日 · 2 分で読めます ·

arXiv:2605.04572: SQSDが無害なファインチューニングもモデルの安全性を損なうことを発見

arXiv:2605.04572 ↗

編集イラスト:2605.04572: SQSDが無害なファインチューニングもモデルの安全性を損なうことを発見

ICML 2026に採択されたこの論文は、SQSD — ファインチューニング中の安全性劣化に対する個々のサンプルの寄与を定量化する手法を発表しています。研究者らは、一見無害なファインチューニングサンプルも累積的にパラメータを「危険アライン」方向にシフトさせることを示しました。

🤖

この記事はAIにより一次情報源から生成されました。

著者チーム(Xiao Wang、Yifei Zhang、YongKang Liu、Xiaocui Yang、Zihan Wang、Shi Feng、Daling Wang)は2026年5月6日、ICML 2026に採択されたarXiv:2605.04572という番号の論文を発表しました。この論文では、大規模言語モデルのファインチューニング中の安全性劣化に対する個々のサンプルの寄与を定量化するSQSD(Sample-level Quantification of Safety Degradation)を紹介しています。

主な発見:無害なサンプルも安全性を損なう

抄録によると、「無害なファインチューニングはパラメータを『危険アライン』方向に累積的にシフトさせ、モデルの安全性を徐々に損なわせる」とのことです。言い換えれば、開発チームが一見中立的なデータを使用してファインチューニングを行っても、モデルがPreference Training(RLHF、DPOなどの手法)を通じて獲得した安全性の動作が損なわれる可能性があります。

SQSDはどのように機能しますか?

SQSDは、そのサンプルから生じるパラメータ更新がパラメータ空間で安全な方向と危険な方向にどのように投影されるかを測定することで、サンプルごとのリスクスコアを計算します。テキストコンテンツ自体が良性であっても、パラメータ更新が危険な方向を引き寄せるサンプルは高いリスクスコアを受け取ります。これにより、安全性劣化に最も寄与するサンプルを特定できます。

アーキテクチャを超えた転移可能性

実験では「異なるモデルサイズ、アーキテクチャ、パラメータ効率の高いトレーニングアプローチ(LoRA、プレフィックスチューニングなど)にわたる強い転移可能性」を示しています。これは、モデルとトレーニング技術の各組み合わせに対して個別にキャリブレーションする必要がないことを意味します。

なぜこれが重要なのですか?

既存のファインチューニングの実践は、良性のデータセットが安全性を脅かさないという前提に依存しています。SQSDはこの前提がパラメータレベルでは誤りであることを示し、ファインチューニングジョブを開始する前にリスクスコアリングを実施し、危険な方向へのドリフトに最も寄与するサンプルを除外または再重み付けする可能性を開きます。これは内部目的でオープンモデルをファインチューニングする組織にとって実用的なツールです。

よくある質問

SQSDとは何ですか?
Sample-level Quantification of Safety Degradation — 各ファインチューニングサンプルが安全または危険な方向へのパラメータシフトに与える影響に基づいてリスクスコアを計算する手法です。
ICMLとは何ですか?
International Conference on Machine Learning — 機械学習分野の三大主要学術会議の一つです。
論文の主な発見は何ですか?
無害なファインチューニングサンプルも「危険アライン」方向へのパラメータの累積的なシフトを引き起こし、モデルの安全性アライメントを徐々に損なわせます。