Microsoft Research: SocialReasoning-Bench zeigt, dass KI-Agenten Aufgaben erledigen, aber Nutzerinteressen nicht verteidigen
SocialReasoning-Bench ist ein neuer Microsoft-Research-Benchmark, der misst, ob ein KI-Agent die tatsächlichen Interessen des Nutzers während Verhandlungen mit anderen Parteien vertritt — nicht nur, ob er die Aufgabe abschließt. Die Ergebnisse zeigen, dass Modelle Deals nahezu perfekt abschließen, aber konsequent Wert liegen lassen, mit mehr als 90 % ineffektiven oder fahrlässigen Ergebnissen in Marktplatz-Szenarien.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Microsoft Research hat SocialReasoning-Bench veröffentlicht, einen neuen Benchmark zur Bewertung der Fähigkeit von KI-Agenten, Nutzerinteressen in Verhandlungen mit anderen Parteien zu vertreten. Ziel ist es, eine kritische Lücke in der bisherigen Evaluierung zu schließen: Agenten erledigen Aufgaben, aber oft mit suboptimalen Ergebnissen für die Person, die sie vertreten.
Zwei Bereiche, drei Metriken
Der Benchmark testet zwei Bereiche. Bei der Kalenderkoordination plant ein Assistent Termine im Rahmen der Nutzerpräferenzen gegen einen Anfragenden mit entgegengesetzten Interessen. Bei der Marktplatz-Verhandlung handelt ein Käufer innerhalb eines definierten Reservationspreises gegen einen Verkäufer. Es werden drei Dinge gemessen: Ergebnisoptimalität (für den Auftraggeber gesicherter Wert auf einer Skala von 0 bis 1), Sorgfaltspflicht (Prozessqualität im Verhältnis zu einer vernünftigen Agenten-Policy) und Fürsorgepflicht (erfordert beides gleichzeitig zur Bestätigung vertrauenswürdiger Delegation).
Was die Ergebnisse zeigen
Agenten planen Termine und schließen Deals „in nahezu allen Fällen ab, erzielen aber konsequent suboptimale Konditionen”, schreibt das Team. Marktplatz-Ergebnisse nahezu aller Modelle liegen nahe null bei der Ergebnisoptimalität — was bedeutet, dass die Gegenpartei praktisch den gesamten Überschuss einnahm. Kalender-Ergebnisse sind besser, aber unter der Mitte der Skala, was darauf hindeutet, dass Agenten häufiger den Präferenzen des Anfragenden als denen des Nutzers zustimmen.
Bessere Prompts reichen nicht aus
Defensive Prompts helfen — GPT-5.4 gewinnt +0,21 bei der Kalender-Ergebnisoptimalität — schließen aber die Lücke zwischen fähiger und unfähiger Vertretung nicht. Adversarielle Gegenparteien verschlechtern die Ergebnisse zusätzlich: Agenten lehnen manipulative Anfragen bei Kalenderaufgaben selten ab, was auf eine Anfälligkeit gegenüber Social Engineering hindeutet. Das Team klassifiziert Verhalten in vier Archetypen: Robust, Lucky, Ineffective, Negligent. Kalenderaufgaben zeigen über 50 % Robust-Performance, Marktplatz über 90 % Ineffective oder Negligent.
Was das für autonome Agenten bedeutet
Die Ergebnisse werfen ernsthafte Fragen zur vertrauenswürdigen Delegation auf. Microsoft Research zieht eine Parallele zu den Pflichten, die Anwälte und Finanzberater gegenüber Klienten haben — wenn Agenten beginnen, in vernetzten Umgebungen zu arbeiten, pflanzt sich schwache Verhandlungsführung kaskadenartig durch Systeme fort und kann zu akkumulierten Wertverlusten führen.
Häufig gestellte Fragen
- Was misst SocialReasoning-Bench anders als Standardbenchmarks?
- Standardbenchmarks messen den erfolgreichen Abschluss einer Aufgabe. SocialReasoning-Bench fügt zwei Dimensionen hinzu: Ergebnisoptimalität (wie viel Wert für den Nutzer gesichert wurde, auf einer Skala von 0 bis 1) und Sorgfaltspflicht (Prozessqualität im Verhältnis zu einer vernünftigen Agenten-Policy). Dadurch wird Glück von Können getrennt.
- Welche zwei Bereiche werden getestet?
- Kalenderkoordination (Agent plant Termine im Rahmen von Nutzerpräferenzen gegen einen Agenten mit entgegengesetzten Interessen) und Marktplatz-Verhandlung (Agent verhandelt Preis innerhalb gesetzter Grenzen gegen einen Verkäufer). Kalender zeigt über 50 % robustes Verhalten, Marktplatz über 90 % ineffektive oder fahrlässige Ergebnisse.
- Helfen bessere Prompts?
- Teilweise. Defensives Prompting hilft — GPT-5.4 gewinnt +0,21 bei der Kalender-Ergebnisoptimalität — schließt aber die Lücke zwischen fähiger und unfähiger Vertretung nicht. Adversarielle Gegenparteien sind besonders effektiv darin, die Ergebnisoptimalität zu zerstören; Agenten lehnen manipulative Anfragen selten ab.
Verwandte Nachrichten
arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten
arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern
arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation