arXiv:2605.07990: LLM Tool-Calling linear repräsentiert — Mean-Difference-Vektor ändert Auswahl zu 77-100 %
Forscher von UCL, Holistic AI und Imperial College entdeckten, dass LLMs die Tool-Auswahl intern linear repräsentieren. Der Mean-Difference-Vektor — die Differenz der durchschnittlichen Aktivierungen zweier Tools — ändert bei Addition die Selektion mit 77-100 % Genauigkeit auf 12 getesteten Modellen (270M-27B Parameter), ohne jegliches Fine-Tuning.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Ein Forschungsteam der University College London, Holistic AI und des Imperial College London — Zekun Wu, Ze Wang, Seonglae Cho, Yufei Yang, Adriano Koshiyama, Sahan Bulathwela und Maria Perez-Ortiz — veröffentlichte am 11. Mai 2026 eine Studie, die zeigt, dass LLMs die Tool-Auswahl intern linear repräsentieren und diese Auswahl ohne Fine-Tuning zuverlässig gesteuert werden kann.
Was haben die Forscher entdeckt?
Der Hauptbefund: Tool-Auswahl in Sprachmodellen ist „linear lesbar und steuerbar” durch Aktivierungsmanipulation. Durch Addition des Mean-Difference-Vektors — der Differenz der durchschnittlichen Aktivierungen zweier Tools — erzielten die Forscher „77-100 % Genauigkeit bei Name-Only-Single-Turn-Prompts, 93-100 % bei Modellen ab 4B+.” Die Technik erfordert kein zusätzliches Training.
Welche Modelle wurden getestet?
Die Studie umfasste 12 instruction-tuned Modelle aus den Familien Gemma 3, Qwen 3, Qwen 2.5 und Llama 3.1, mit Parameteranzahlen von 270M bis 27B. Konsistente Ergebnisse über so diverse Architekturen hinweg legen nahe, dass das Phänomen universell ist, kein Artefakt eines bestimmten Modells oder Trainings.
Was offenbart das über die interne Struktur der Modelle?
Die Autoren nutzten Activation Patching und kausale Analyse und stellten fest, dass der kausale Effekt „sich entlang einer Richtung konzentriert, der Ausgabezeile der Schicht, die den ersten Token des Ziel-Tools erzeugt.” Überraschenderweise codierten sogar Base-Modelle (vor dem Instruction-Tuning) korrekte Tool-Informationen — Cosine-Readout liefert 69-82 % auf BFCL-Benchmarks, während Base-Generierung nur 2-10 % erreicht. Instruction-Tuning verdrahtet offenbar nur bestehende Repräsentationen in den Output.
Was sind praktische Implikationen und Grenzen?
Die Technik eröffnet neue Möglichkeiten für leichtgewichtige Steuerung agentischer Systeme: Tool-Wechsel ohne Retraining, A/B-Tests verschiedener Tool-Routings, Abschwächung von Modell-Bias gegenüber bestimmten Tools. Die Grenzen sind bedeutend — die Autoren betonen, dass Befunde in Single-Turn-Fixed-Menu-Settings gelten, während Multi-Turn-Agentic-Transfer „fragiler” ist und weitere Forschung erfordert.
Häufig gestellte Fragen
- Was ist ein Mean-Difference-Vektor?
- Ein Mean-Difference-Vektor ist die Differenz zwischen den durchschnittlichen Aktivierungsvektoren zweier Klassen (z. B. zwei Tools). Er wird berechnet, indem der Durchschnitt der Aktivierungen auf Beispielen, wo das Modell Tool A wählt, vom Durchschnitt auf Beispielen, wo es Tool B wählt, abgezogen wird. Das Hinzufügen dieser Differenz zu Aktivierungen während der Inferenz kann das Modell zu einem Tool „schubsen”.
- Warum ist die lineare Repräsentation überraschend?
- Viele gingen davon aus, dass die Tool-Auswahl in LLMs aus komplexen Interaktionen mehrerer Schichten und Komponenten resultiert. Die Studie zeigt, dass der kausale Effekt „entlang einer Richtung, der Ausgabezeile der Schicht, die den ersten Token des Ziel-Tools erzeugt” konzentriert ist — eine einfachere Struktur als angenommen, die einfachere Kontrollmethoden ermöglicht.
- Gilt das auch für Multi-Turn-Agenten-Szenarien?
- Die Autoren warnen explizit: Befunde gelten für „Single-Turn-Fixed-Menu-Settings”, während „Multi-Turn-Agentic-Transfer fragiler ist”. Das bedeutet, die Technik eignet sich zur Steuerung der Tool-Auswahl in einem Schritt, aber zuverlässige Steuerung mehrerer Tools über längere Agenten-Trajektorien bleibt ein offenes Problem.
Verwandte Nachrichten
arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen
Black Forest Labs: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung
arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs