ArXiv SAGE: 27 LLMs getestet — Modelle verstehen die Absicht, fuehren aber nicht korrekt aus
Warum es wichtig ist
Ein neuer Benchmark fuer Kundenservice deckt zwei Phaenomene auf: 'Execution Gap' (Modelle klassifizieren Absichten korrekt, fuehren aber nicht die richtigen Aktionen aus) und 'Empathy Resilience' (Modelle bleiben hoeflich, waehrend sie logische Fehler machen).
Benchmark fuer Kundenservice-Agenten
Das Team (Shi, Dai, Wang u.a.) stellt SAGE (Service Agent Graph-guided Evaluation) vor — einen Benchmark, der unstrukturierte SOPs (Standard Operating Procedures) in Dynamic Dialogue Graphs formalisiert und testet, wie gut LLMs diesen in der Praxis folgen.
SAGE hat 27 LLMs in 6 industriellen Szenarien getestet — die groesste Evaluierung dieser Art fuer Service-Agenten.
Zwei zentrale Phaenomene
Execution Gap
Modelle klassifizieren korrekt die Absicht des Nutzers (sie wissen, was der Nutzer will), fuehren aber nicht die korrekten naechsten Aktionen gemaess dem SOP aus. Verstehen ist nicht gleich Ausfuehren.
Empathy Resilience
Unter hohem adversarialem Druck bewahren Modelle eine hoefliche Konversationsfassade, waehrend sie unter der Oberflaeche logische Fehler machen. Der Nutzer bekommt den Eindruck, dass der Agent kompetent ist, waehrend er tatsaechlich die falschen Dinge tut — eine truegerische Art des Versagens.
Warum es wichtig ist
Fuer Unternehmen, die KI-Agenten im Kundenservice einsetzen, ist dies eine Warnung: Standard-Benchmarks, die nur messen, ob der Agent die Frage versteht, verpassen eine kritische Dimension — ob der Agent nach dem Verstehen das Richtige tut. SAGE fuehrt eine adversariale Taxonomie von Absichten und einen modularen Erweiterungsmechanismus fuer Tests in neuen Domaenen zu niedrigen Kosten ein.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
arXiv:2604.24697: SciCrafter zeigt, dass GPT-5.2, Gemini 3 Pro und Claude Opus 4.5 bei ~26 % im Minecraft-Discovery-to-Application-Test plateauieren
AWS veröffentlicht Leitfaden zum Aufbau von Strands Agents mit SageMaker-KI-Modellen und MLflow-Observability: SageMakerAIModel-Provider, Autolog-Tracing und A/B-Variantentests
OpenAI veröffentlicht Symphony: Open-Source-Spezifikation für die Orchestrierung von Codex-Agenten, die Issue-Tracker in „Always-On”-Ingenieurlösungen verwandelt