LLMと混合デモ：コンテキスト内の安全性

arXiv:2606.20508は、安全整合済み言語モデルが無害・有害デモンストレーションを混在させたコンテキストにどう反応するかを研究しました。主要な発見は、良性デモと有害デモは相互に置き換え不可能であること、無害な例はモデルによって有害遵守を下げることも上げることもあること、そして偏好最適化が有害行動のエスカレーションを防ぐということです。

論文 arXiv:2606.20508 は、安全整合済み言語モデルが無害・有害デモンストレーションを混在させたコンテキスト（in-context）を与えられたときの挙動を研究しています。In-context learning とは、追加のトレーニングなしにプロンプト内の例から行動パターンを学習するモデルの能力です。攻撃者が保護機能を回避するためにデモンストレーションを巧みに組み合わせることが多いため、この問題はセキュリティにとって重要です。

良性デモと有害デモは置き換え不可能

研究の主要な発見は、無害な例と有害な例は相互に置き換え可能ではないということです。良性デモの追加は中立的な効果をもたらしません：モデルによって、それは有害な応答の傾向を下げることも上げることもあります。無害な例が常にリスクを「希薄化」するという前提とは異なり、結果は予測不可能でモデル固有です。

再近効果と防御メカニズム

著者らは強い再近効果を発見しました——デモンストレーションの順序が結果に大きく影響し、最後に挙げられた例が行動の形成に不釣り合いな影響を与えます。一部のモデルは有害デモのフォーマットを取り込みながらも、有害なリクエスト自体を拒否します。効果的な防御として偏好最適化が浮かび上がりました。これは望ましい応答と望ましくない応答の比較に基づいてモデルを訓練する手法で、有害遵守のエスカレーションを防ぎます。

なぜ重要か

この発見は、安全性評価が個々のデモの危害性だけでなく、デモの構成と順序も考慮しなければならないことを示しています。モデル開発者にとって、この研究はコンテキスト操作に対する防御層として偏好最適化を支持する論拠となります。

よくある質問

研究の主要な発見は何ですか？

良性デモと有害デモはコンテキスト内で相互に置き換え不可能です。無害な例はモデルによって有害応答の傾向を下げることも上げることもあります。

デモの順序はモデルにどう影響しますか？

著者は強い再近効果を発見しており、最後に挙げられたデモンストレーションがモデルの行動に不釣り合いな影響を与えます。

有害性のエスカレーションを防ぐものは何ですか？

望ましい応答と望ましくない応答の比較に基づいてモデルを訓練する手法である偏好最適化が、有害遵守のエスカレーションを防ぎます。

arXiv:2606.20508：LLMは無害・有害デモンストレーションの混合から何を学ぶか

良性デモと有害デモは置き換え不可能

再近効果と防御メカニズム

なぜ重要か

よくある質問

出典

関連ニュース