arXiv:2605.07990 UCL：LLMツール選択が線形に操作可能

UCL、Holistic AI、帝国大学の研究者たちは、LLMがツール選択を内部で線形に表現していることを発見しました。均値差ベクトル——2つのツールの平均活性化の差——を活性化に追加することで、12のテスト済みモデル（2.7億〜270億パラメータ）において、ファインチューニングなしで77-100%の精度でツール選択を変更できます。

University College London、Holistic AI、帝国大学の研究チーム——Zekun Wu、Ze Wang、Seonglae Cho、Yufei Yang、Adriano Koshiyama、Sahan Bulathwela、Maria Perez-Ortiz——は2026年5月11日、LLMがツール選択を内部で線形に表現しており、その選択がファインチューニングなしに確実に操作できることを示す研究を発表しました。

研究者たちは何を発見したか？

主な発見：言語モデルでのツール選択は活性化操作によって「線形に読み取り可能かつ操作可能」です。均値差ベクトル——2つのツールの平均活性化の差——を追加することで、「名前のみのシングルターンプロンプトで77-100%の精度を達成し、4B+パラメータのモデルでは93-100%」を実現しました。技術は追加のトレーニングを一切必要としません。

テストされたモデルは？

研究はGemma 3、Qwen 3、Qwen 2.5、Llama 3.1ファミリーの12つの指示チューニング済みモデルを、270万〜270億パラメータの範囲でカバーしました。多様なアーキテクチャを通じた一貫した結果は、この現象が普遍的であり、特定のモデルやトレーニングの産物ではないことを示唆しています。

これはモデルの内部構造について何を明らかにするか？

研究者たちは活性化パッチングと因果分析を使用し、因果効果が「単一の方向——ターゲットツールの最初のトークンを生成する出力層の行——に集中している」ことを確認しました。驚くべきことに、ベースモデル（指示チューニング前）でさえツールに関する正しい情報をエンコードしていました——コサイン読み出しはBFCLベンチマークで69-82%を達成するのに対し、ベース生成はわずか2-10%です。指示チューニングは既存の表現を出力に配線するだけのようです。

実際の応用と限界は何か？

この技術はエージェントシステムの軽量制御に新しい可能性を開きます：再トレーニングなしのツール切り替え、異なるツールルーティングのA/Bテスト、特定のツールへのモデル偏見の軽減。限界も重要——著者らはシングルターンの固定メニュー設定での結論を強調しており、マルチターンのエージェント転移は「より脆弱」で追加研究が必要です。

よくある質問

均値差ベクトルとは何か？

均値差ベクトルは2つのクラス（例えば2つのツール）の平均活性化ベクトルの差です。モデルがツールAを選択する例の活性化の平均を取り、ツールBを選択する例の平均を引いて計算します。推論中にその差を活性化に加えることで、モデルをどちらかのツールに「押しやる」ことができます。

なぜ線形表現は驚くべきことか？

LLMでのツール選択は複数のレイヤーとコンポーネントの複雑な相互作用の結果だと多くの人が推測していました。研究は因果効果が「単一の方向——ターゲットツールの最初のトークンを生成する出力層の行——に集中している」ことを示しており、これは想定よりも単純な構造を示唆し、より単純な制御方法への道を開きます。

これはマルチターンのエージェントシナリオにも有効か？

著者らは明示的に警告しています：結論は「シングルターンの固定メニュー設定」に適用されるが、「マルチターンのエージェント転移はより脆弱」です。これは技術がシングルステップのツール選択制御には有用であるが、より長いエージェント軌跡を通じて複数のツールを確実に管理することは未解決の問題であることを意味します。

arXiv:2605.07990: LLMのツール呼び出しは線形に表現されている——均値差ベクトルが77-100%の精度でツール選択を変更

研究者たちは何を発見したか？

テストされたモデルは？

これはモデルの内部構造について何を明らかにするか？

実際の応用と限界は何か？

よくある質問

出典

関連ニュース