ArXiv SAGE: 27 LLM-ova testirano — modeli razumiju namjeru ali ne izvršavaju ispravno

Benchmark za customer service agente

Tim (Shi, Dai, Wang i dr.) predstavlja SAGE (Service Agent Graph-guided Evaluation) — benchmark koji formalizira nestrukturirane SOP-ove (Standard Operating Procedures) u Dynamic Dialogue Graphs i testira koliko ih LLM-ovi slijede u praksi.

SAGE je testirao 27 LLM-ova u 6 industrijskih scenarija — najveća evaluacija ove vrste za servisne agente.

Dva ključna fenomena

Execution Gap

Modeli točno klasificiraju korisnikovu namjeru (znaju što korisnik želi), ali ne izvode ispravne sljedeće radnje prema SOP-u. Razumijevanje ≠ izvršavanje.

Empathy Resilience

Pod visokim adversarial pritiskom, modeli održavaju pristojnu konverzacijsku fasadu dok ispod površine rade logičke greške. Korisnik dobiva dojam da je agent kompetentan, a zapravo radi pogrešne stvari — varljiv način neuspjeha.

Zašto je bitno

Za kompanije koje koriste AI agente u korisničkom servisu, ovo je upozorenje: standardni benchmarci koji mjere samo “razumije li agent pitanje” propuštaju kritičnu dimenziju — “radi li agent ispravnu stvar nakon što razumije”. SAGE uvodi adversarial taxonomy namjera i modularni mehanizam proširenja za testiranje u novim domenama uz niske troškove.