ArXiv SAGE: 27 LLMs getestet — Modelle verstehen die Absicht, fuehren aber nicht korrekt aus

Ein neuer Benchmark fuer Kundenservice deckt zwei Phaenomene auf: 'Execution Gap' (Modelle klassifizieren Absichten korrekt, fuehren aber nicht die richtigen Aktionen aus) und 'Empathy Resilience' (Modelle bleiben hoeflich, waehrend sie logische Fehler machen).

Benchmark fuer Kundenservice-Agenten

Das Team (Shi, Dai, Wang u.a.) stellt SAGE (Service Agent Graph-guided Evaluation) vor — einen Benchmark, der unstrukturierte SOPs (Standard Operating Procedures) in Dynamic Dialogue Graphs formalisiert und testet, wie gut LLMs diesen in der Praxis folgen.

SAGE hat 27 LLMs in 6 industriellen Szenarien getestet — die groesste Evaluierung dieser Art fuer Service-Agenten.

Zwei zentrale Phaenomene

Execution Gap

Modelle klassifizieren korrekt die Absicht des Nutzers (sie wissen, was der Nutzer will), fuehren aber nicht die korrekten naechsten Aktionen gemaess dem SOP aus. Verstehen ist nicht gleich Ausfuehren.

Empathy Resilience

Unter hohem adversarialem Druck bewahren Modelle eine hoefliche Konversationsfassade, waehrend sie unter der Oberflaeche logische Fehler machen. Der Nutzer bekommt den Eindruck, dass der Agent kompetent ist, waehrend er tatsaechlich die falschen Dinge tut — eine truegerische Art des Versagens.

Warum es wichtig ist

Fuer Unternehmen, die KI-Agenten im Kundenservice einsetzen, ist dies eine Warnung: Standard-Benchmarks, die nur messen, ob der Agent die Frage versteht, verpassen eine kritische Dimension — ob der Agent nach dem Verstehen das Richtige tut. SAGE fuehrt eine adversariale Taxonomie von Absichten und einen modularen Erweiterungsmechanismus fuer Tests in neuen Domaenen zu niedrigen Kosten ein.