🤖 24 AI
🟢 🤝 Agenti ponedjeljak, 13. travnja 2026. · 1 min čitanja

ArXiv SAGE: 27 LLM-ova testirano — modeli razumiju namjeru ali ne izvršavaju ispravno

Zašto je bitno

Novi benchmark za korisničke servise otkriva dva fenomena: 'Execution Gap' (modeli točno klasificiraju namjere ali ne izvode ispravne radnje) i 'Empathy Resilience' (modeli ostaju pristojni dok rade logičke greške).

Benchmark za customer service agente

Tim (Shi, Dai, Wang i dr.) predstavlja SAGE (Service Agent Graph-guided Evaluation) — benchmark koji formalizira nestrukturirane SOP-ove (Standard Operating Procedures) u Dynamic Dialogue Graphs i testira koliko ih LLM-ovi slijede u praksi.

SAGE je testirao 27 LLM-ova u 6 industrijskih scenarija — najveća evaluacija ove vrste za servisne agente.

Dva ključna fenomena

Execution Gap

Modeli točno klasificiraju korisnikovu namjeru (znaju što korisnik želi), ali ne izvode ispravne sljedeće radnje prema SOP-u. Razumijevanje ≠ izvršavanje.

Empathy Resilience

Pod visokim adversarial pritiskom, modeli održavaju pristojnu konverzacijsku fasadu dok ispod površine rade logičke greške. Korisnik dobiva dojam da je agent kompetentan, a zapravo radi pogrešne stvari — varljiv način neuspjeha.

Zašto je bitno

Za kompanije koje koriste AI agente u korisničkom servisu, ovo je upozorenje: standardni benchmarci koji mjere samo “razumije li agent pitanje” propuštaju kritičnu dimenziju — “radi li agent ispravnu stvar nakon što razumije”. SAGE uvodi adversarial taxonomy namjera i modularni mehanizam proširenja za testiranje u novim domenama uz niske troškove.

🤖 Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.