ArXiv SAGE: 27 LLMs getestet — Modelle verstehen die Absicht, fuehren aber nicht korrekt aus
Warum es wichtig ist
Ein neuer Benchmark fuer Kundenservice deckt zwei Phaenomene auf: 'Execution Gap' (Modelle klassifizieren Absichten korrekt, fuehren aber nicht die richtigen Aktionen aus) und 'Empathy Resilience' (Modelle bleiben hoeflich, waehrend sie logische Fehler machen).
Benchmark fuer Kundenservice-Agenten
Das Team (Shi, Dai, Wang u.a.) stellt SAGE (Service Agent Graph-guided Evaluation) vor — einen Benchmark, der unstrukturierte SOPs (Standard Operating Procedures) in Dynamic Dialogue Graphs formalisiert und testet, wie gut LLMs diesen in der Praxis folgen.
SAGE hat 27 LLMs in 6 industriellen Szenarien getestet — die groesste Evaluierung dieser Art fuer Service-Agenten.
Zwei zentrale Phaenomene
Execution Gap
Modelle klassifizieren korrekt die Absicht des Nutzers (sie wissen, was der Nutzer will), fuehren aber nicht die korrekten naechsten Aktionen gemaess dem SOP aus. Verstehen ist nicht gleich Ausfuehren.
Empathy Resilience
Unter hohem adversarialem Druck bewahren Modelle eine hoefliche Konversationsfassade, waehrend sie unter der Oberflaeche logische Fehler machen. Der Nutzer bekommt den Eindruck, dass der Agent kompetent ist, waehrend er tatsaechlich die falschen Dinge tut — eine truegerische Art des Versagens.
Warum es wichtig ist
Fuer Unternehmen, die KI-Agenten im Kundenservice einsetzen, ist dies eine Warnung: Standard-Benchmarks, die nur messen, ob der Agent die Frage versteht, verpassen eine kritische Dimension — ob der Agent nach dem Verstehen das Richtige tut. SAGE fuehrt eine adversariale Taxonomie von Absichten und einen modularen Erweiterungsmechanismus fuer Tests in neuen Domaenen zu niedrigen Kosten ein.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
arXiv:2604.21910: Agentic AI automatisiert wissenschaftliche Workflows mit 83 % Genauigkeit, 92 % weniger Datentransfer und $0,001 pro Anfrage
arXiv:2604.22748: Survey von 42 Autoren führt Taxonomie ‚levels × laws' für World Models in AI-Agenten ein — Synthese aus über 400 Arbeiten
arXiv:2604.22452: Superminds Test zeigt, dass kollektive Intelligenz in einer Gesellschaft von 2 Millionen AI-Agenten nicht spontan entsteht