arXiv:2605.07990 UCL研究：LLM工具调用可线性操控，无需微调

UCL、Holistic AI和帝国理工学院的研究人员发现LLM在内部以线性方式表示工具选择。均值差向量——两个工具平均激活值的差——添加到激活中，无需任何微调，即可以77-100%的准确率改变12个测试模型（2.7亿至270亿参数）的工具选择。

来自伦敦大学学院（UCL）、Holistic AI和帝国理工学院的研究团队——Zekun Wu、Ze Wang、Seonglae Cho、Yufei Yang、Adriano Koshiyama、Sahan Bulathwela和Maria Perez-Ortiz——于2026年5月11日发表了一项研究，证明LLM在内部以线性方式表示工具选择，且这种选择可在无需微调的情况下可靠地被操控。

研究人员发现了什么？

核心发现：语言模型中的工具选择通过激活操控是「线性可读且可操控的」。通过添加均值差向量——两个工具平均激活值的差——研究人员在「仅包含名称的单轮提示词上实现了77-100%的准确率，对4B+参数模型为93-100%」。该技术不需要任何额外训练。

测试了哪些模型？

研究涵盖了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1系列的12个指令微调模型，参数范围从2.7亿到270亿。在如此多样化的架构中取得一致结果表明，这一现象是普遍性的，而非特定模型或训练的产物。

这揭示了模型内部结构的什么？

研究人员使用激活补丁和因果分析，发现因果效应「集中在单一方向——产生目标工具第一个token的输出层行」。令人惊讶的是，即使是基础模型（指令微调之前）也编码了关于工具的正确信息——余弦读出在BFCL基准上达到69-82%，而基础生成只有2-10%。指令微调似乎只是将现有表示连接到输出。

实际应用和局限性是什么？

该技术为轻量级智能体系统控制打开了新可能：无需重新训练即可切换工具、A/B测试不同工具路由、减轻模型对特定工具的偏好。局限性也很重要——作者强调研究结论在单轮固定菜单设置中有效，而多轮智能体迁移「更加脆弱」，需要进一步研究。

常见问题

什么是均值差向量？

均值差向量是两个类别（例如两个工具）平均激活向量的差值。计算方法是取模型选择工具A时的激活均值，减去选择工具B时的激活均值。在推理过程中将该差值添加到激活中，可以将模型「推」向其中一个工具。

为什么线性表示令人惊讶？

许多人认为LLM中的工具选择是多层多组件复杂交互的结果。研究表明因果效应「集中在单一方向——产生目标工具第一个token的输出层行」——这意味着结构比预期的更简单，并为更简单的控制方法打开了大门。

这对多轮智能体场景也有效吗？

作者明确警告：研究结论适用于「单轮固定菜单设置」，而「多轮智能体迁移更加脆弱」。这意味着该技术适用于单步工具选择控制，但通过较长智能体轨迹可靠地管理多个工具仍是一个开放问题。

arXiv:2605.07990: LLM工具调用线性可表示——均值差向量以77-100%准确率改变工具选择

研究人员发现了什么？

测试了哪些模型？

这揭示了模型内部结构的什么？

实际应用和局限性是什么？

常见问题

来源

相关新闻