ArXiv SAGE: 27 LLMs getestet — Modelle verstehen die Absicht, fuehren aber nicht korrekt aus
Warum es wichtig ist
Ein neuer Benchmark fuer Kundenservice deckt zwei Phaenomene auf: 'Execution Gap' (Modelle klassifizieren Absichten korrekt, fuehren aber nicht die richtigen Aktionen aus) und 'Empathy Resilience' (Modelle bleiben hoeflich, waehrend sie logische Fehler machen).
Benchmark fuer Kundenservice-Agenten
Das Team (Shi, Dai, Wang u.a.) stellt SAGE (Service Agent Graph-guided Evaluation) vor — einen Benchmark, der unstrukturierte SOPs (Standard Operating Procedures) in Dynamic Dialogue Graphs formalisiert und testet, wie gut LLMs diesen in der Praxis folgen.
SAGE hat 27 LLMs in 6 industriellen Szenarien getestet — die groesste Evaluierung dieser Art fuer Service-Agenten.
Zwei zentrale Phaenomene
Execution Gap
Modelle klassifizieren korrekt die Absicht des Nutzers (sie wissen, was der Nutzer will), fuehren aber nicht die korrekten naechsten Aktionen gemaess dem SOP aus. Verstehen ist nicht gleich Ausfuehren.
Empathy Resilience
Unter hohem adversarialem Druck bewahren Modelle eine hoefliche Konversationsfassade, waehrend sie unter der Oberflaeche logische Fehler machen. Der Nutzer bekommt den Eindruck, dass der Agent kompetent ist, waehrend er tatsaechlich die falschen Dinge tut — eine truegerische Art des Versagens.
Warum es wichtig ist
Fuer Unternehmen, die KI-Agenten im Kundenservice einsetzen, ist dies eine Warnung: Standard-Benchmarks, die nur messen, ob der Agent die Frage versteht, verpassen eine kritische Dimension — ob der Agent nach dem Verstehen das Richtige tut. SAGE fuehrt eine adversariale Taxonomie von Absichten und einen modularen Erweiterungsmechanismus fuer Tests in neuen Domaenen zu niedrigen Kosten ein.
Verwandte Nachrichten
AI2: KI-Agenten loesen 80 % der Schulwissenschaft, aber nur 20 % echter wissenschaftlicher Probleme
ArXiv HiL-Bench: Wissen KI-Agenten, wann sie einen Menschen um Hilfe bitten sollten?
OpenAI und Cloudflare: GPT-5.4 und Codex treiben neue Agent-Cloud-Plattform fuer Unternehmen an