arXiv:2605.07990: LLMのツール呼び出しは線形に表現されている——均値差ベクトルが77-100%の精度でツール選択を変更
UCL、Holistic AI、帝国大学の研究者たちは、LLMがツール選択を内部で線形に表現していることを発見しました。均値差ベクトル——2つのツールの平均活性化の差——を活性化に追加することで、12のテスト済みモデル(2.7億〜270億パラメータ)において、ファインチューニングなしで77-100%の精度でツール選択を変更できます。
この記事はAIにより一次情報源から生成されました。
University College London、Holistic AI、帝国大学の研究チーム——Zekun Wu、Ze Wang、Seonglae Cho、Yufei Yang、Adriano Koshiyama、Sahan Bulathwela、Maria Perez-Ortiz——は2026年5月11日、LLMがツール選択を内部で線形に表現しており、その選択がファインチューニングなしに確実に操作できることを示す研究を発表しました。
研究者たちは何を発見したか?
主な発見:言語モデルでのツール選択は活性化操作によって「線形に読み取り可能かつ操作可能」です。均値差ベクトル——2つのツールの平均活性化の差——を追加することで、「名前のみのシングルターンプロンプトで77-100%の精度を達成し、4B+パラメータのモデルでは93-100%」を実現しました。技術は追加のトレーニングを一切必要としません。
テストされたモデルは?
研究はGemma 3、Qwen 3、Qwen 2.5、Llama 3.1ファミリーの12つの指示チューニング済みモデルを、270万〜270億パラメータの範囲でカバーしました。多様なアーキテクチャを通じた一貫した結果は、この現象が普遍的であり、特定のモデルやトレーニングの産物ではないことを示唆しています。
これはモデルの内部構造について何を明らかにするか?
研究者たちは活性化パッチングと因果分析を使用し、因果効果が「単一の方向——ターゲットツールの最初のトークンを生成する出力層の行——に集中している」ことを確認しました。驚くべきことに、ベースモデル(指示チューニング前)でさえツールに関する正しい情報をエンコードしていました——コサイン読み出しはBFCLベンチマークで69-82%を達成するのに対し、ベース生成はわずか2-10%です。指示チューニングは既存の表現を出力に配線するだけのようです。
実際の応用と限界は何か?
この技術はエージェントシステムの軽量制御に新しい可能性を開きます:再トレーニングなしのツール切り替え、異なるツールルーティングのA/Bテスト、特定のツールへのモデル偏見の軽減。限界も重要——著者らはシングルターンの固定メニュー設定での結論を強調しており、マルチターンのエージェント転移は「より脆弱」で追加研究が必要です。
よくある質問
- 均値差ベクトルとは何か?
- 均値差ベクトルは2つのクラス(例えば2つのツール)の平均活性化ベクトルの差です。モデルがツールAを選択する例の活性化の平均を取り、ツールBを選択する例の平均を引いて計算します。推論中にその差を活性化に加えることで、モデルをどちらかのツールに「押しやる」ことができます。
- なぜ線形表現は驚くべきことか?
- LLMでのツール選択は複数のレイヤーとコンポーネントの複雑な相互作用の結果だと多くの人が推測していました。研究は因果効果が「単一の方向——ターゲットツールの最初のトークンを生成する出力層の行——に集中している」ことを示しており、これは想定よりも単純な構造を示唆し、より単純な制御方法への道を開きます。
- これはマルチターンのエージェントシナリオにも有効か?
- 著者らは明示的に警告しています:結論は「シングルターンの固定メニュー設定」に適用されるが、「マルチターンのエージェント転移はより脆弱」です。これは技術がシングルステップのツール選択制御には有用であるが、より長いエージェント軌跡を通じて複数のツールを確実に管理することは未解決の問題であることを意味します。