arXiv:2605.07990: LLM工具调用线性可表示——均值差向量以77-100%准确率改变工具选择
UCL、Holistic AI和帝国理工学院的研究人员发现LLM在内部以线性方式表示工具选择。均值差向量——两个工具平均激活值的差——添加到激活中,无需任何微调,即可以77-100%的准确率改变12个测试模型(2.7亿至270亿参数)的工具选择。
本文由人工智能基于一手来源生成。
来自伦敦大学学院(UCL)、Holistic AI和帝国理工学院的研究团队——Zekun Wu、Ze Wang、Seonglae Cho、Yufei Yang、Adriano Koshiyama、Sahan Bulathwela和Maria Perez-Ortiz——于2026年5月11日发表了一项研究,证明LLM在内部以线性方式表示工具选择,且这种选择可在无需微调的情况下可靠地被操控。
研究人员发现了什么?
核心发现:语言模型中的工具选择通过激活操控是「线性可读且可操控的」。通过添加均值差向量——两个工具平均激活值的差——研究人员在「仅包含名称的单轮提示词上实现了77-100%的准确率,对4B+参数模型为93-100%」。该技术不需要任何额外训练。
测试了哪些模型?
研究涵盖了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1系列的12个指令微调模型,参数范围从2.7亿到270亿。在如此多样化的架构中取得一致结果表明,这一现象是普遍性的,而非特定模型或训练的产物。
这揭示了模型内部结构的什么?
研究人员使用激活补丁和因果分析,发现因果效应「集中在单一方向——产生目标工具第一个token的输出层行」。令人惊讶的是,即使是基础模型(指令微调之前)也编码了关于工具的正确信息——余弦读出在BFCL基准上达到69-82%,而基础生成只有2-10%。指令微调似乎只是将现有表示连接到输出。
实际应用和局限性是什么?
该技术为轻量级智能体系统控制打开了新可能:无需重新训练即可切换工具、A/B测试不同工具路由、减轻模型对特定工具的偏好。局限性也很重要——作者强调研究结论在单轮固定菜单设置中有效,而多轮智能体迁移「更加脆弱」,需要进一步研究。
常见问题
- 什么是均值差向量?
- 均值差向量是两个类别(例如两个工具)平均激活向量的差值。计算方法是取模型选择工具A时的激活均值,减去选择工具B时的激活均值。在推理过程中将该差值添加到激活中,可以将模型「推」向其中一个工具。
- 为什么线性表示令人惊讶?
- 许多人认为LLM中的工具选择是多层多组件复杂交互的结果。研究表明因果效应「集中在单一方向——产生目标工具第一个token的输出层行」——这意味着结构比预期的更简单,并为更简单的控制方法打开了大门。
- 这对多轮智能体场景也有效吗?
- 作者明确警告:研究结论适用于「单轮固定菜单设置」,而「多轮智能体迁移更加脆弱」。这意味着该技术适用于单步工具选择控制,但通过较长智能体轨迹可靠地管理多个工具仍是一个开放问题。