SIREN:出力フィルタリングではなくモデルの内部状態を読み取るLLM安全の新アプローチ
なぜ重要か
SIRENは、既存のガードモデルより250倍少ないパラメータで、出力フィルタリングではなくモデルの内部ニューラルネットワーク状態を使用して有害コンテンツを検出する、大型言語モデルの新しいセキュリティメカニズムです。
「内部からのLLM安全:内部表現による有害コンテンツ検出」と題する新論文はSIRENシステムを提案し、2026年4月20日にArXivで公開されました(ID: 2604.18519)。Difan Jiao、Yilun Liu、Ye Yuan、Zhenwei Tang、Linfeng Du、Haolun Wu、Ashton Andersonの著者らは、古典的な出力フィルタリングからモデルの内部状態による検出へのシフトを提案しており、オープンソースLLMが安全メカニズムを実装する方法を根本的に変える可能性があります。
出力フィルタリングとは何か、SIRENがそれを放棄する理由は?
今日のほとんどの安全メカニズム——Claude、GPT、Llamaを含む——は出力フィルタリングに依存しています。モデルがテキストを生成し、別の「ガードモデル」がそのテキストをレビューして、通過させるか、検閲するか、拒否メッセージをトリガーするかを決定します。そのようなガードモデルは通常大きく、計算コストが高く、モデルが生成に努力を費やした後に反応します。
SIRENは視点を変えます。最終トークンや出力だけを分析する代わりに、モデルの複数の層にわたって「安全ニューロン」を見つけるために線形プロービングを使用します。これは隠れ状態(hidden states)と活性化——モデルが入力を処理する際に生成する内部数値ベクトル——の分析です。これらの情報は出力ワードが発せられる前から存在するため、SIRENはより早く、より正確に反応できます。
レイヤーごとの適応戦略はどのように機能するか?
SIRENは適応的なレイヤー加重戦略を適用します。すべての層を同等に扱うのではなく、有害性の最終判断においてどの層をより重く評価するかを学習します。線形プロービングは、各層でその層の表現が「安全」か「危険」かを評価する小さな線形分類器を訓練する技術です。著者らは、安全関連の特徴が「内部層全体に分散している」ことを示しています——つまり、終端だけでなく、処理パス全体に散在しているのです。
結果は印象的です。SIRENは「250倍少ない訓練済みパラメータで最先端のオープンソースガードモデルを大幅に上回ります」。また、訓練中に見たことのないベンチマークへの優れた汎化も示しており、これはセキュリティ分類器の伝統的な弱点です。小さなサイズのため、推論は生成型ガードモデル——なぜ何かが有害なのかを「書き出す」必要があるもの——よりもはるかに高速です。
これが誰に重要で、制限は何か?
ユーザー側の主な利点は、誤拒否(false refusals)の減少です——ガードが正当なリクエストを過度に慎重に分類して拒否するケースです。SIRENは内部状態を読み取るため、実際の意図を表面的なトリガーワードからより適切に区別できます(たとえば、サイバーセキュリティ教育の文脈での「攻撃」という単語が自動的にブロックをトリガーしません)。
主な制限は明確です。SIRENはモデルへのホワイトボックスアクセス(内部活性化を読み取る機能)を必要とします。これにより、内部状態にアクセスできないOpenAIやAnthropicのような閉じた商用APIからは除外されます。一方、まさにこれがSIRENをオープンソースエコシステム(Llama、Qwen、Mistral、DeepSeek)に対して非常に魅力的にします——そこでは隠れ状態に完全にアクセス可能で、開発者はしばしば外部ガードサービスにコンテンツを送信せずに安価なローカルセキュリティインフラを必要としています。
この記事はAIにより一次情報源から生成されました。