ArXiv SAGE: 27 LLM-ova testirano — modeli razumiju namjeru ali ne izvršavaju ispravno
Zašto je bitno
Novi benchmark za korisničke servise otkriva dva fenomena: 'Execution Gap' (modeli točno klasificiraju namjere ali ne izvode ispravne radnje) i 'Empathy Resilience' (modeli ostaju pristojni dok rade logičke greške).
Benchmark za customer service agente
Tim (Shi, Dai, Wang i dr.) predstavlja SAGE (Service Agent Graph-guided Evaluation) — benchmark koji formalizira nestrukturirane SOP-ove (Standard Operating Procedures) u Dynamic Dialogue Graphs i testira koliko ih LLM-ovi slijede u praksi.
SAGE je testirao 27 LLM-ova u 6 industrijskih scenarija — najveća evaluacija ove vrste za servisne agente.
Dva ključna fenomena
Execution Gap
Modeli točno klasificiraju korisnikovu namjeru (znaju što korisnik želi), ali ne izvode ispravne sljedeće radnje prema SOP-u. Razumijevanje ≠ izvršavanje.
Empathy Resilience
Pod visokim adversarial pritiskom, modeli održavaju pristojnu konverzacijsku fasadu dok ispod površine rade logičke greške. Korisnik dobiva dojam da je agent kompetentan, a zapravo radi pogrešne stvari — varljiv način neuspjeha.
Zašto je bitno
Za kompanije koje koriste AI agente u korisničkom servisu, ovo je upozorenje: standardni benchmarci koji mjere samo “razumije li agent pitanje” propuštaju kritičnu dimenziju — “radi li agent ispravnu stvar nakon što razumije”. SAGE uvodi adversarial taxonomy namjera i modularni mehanizam proširenja za testiranje u novim domenama uz niske troškove.