ArXiv KnowU-Bench: novi benchmark za interaktivne i proaktivne mobilne AI agente

Praznina u evaluaciji mobilnih agenata

Trenutni benchmarkovi za mobilne AI agente uglavnom mjere statičke sposobnosti — može li agent izvršiti zadatak A, kakvo mu je razumijevanje ekrana, koliko je točan u OCR-u. Ali stvarni mobilni asistenti trebaju biti interaktivni, proaktivni i personalizirani — a to dosad nije bilo dobro evaluirano.

KnowU-Bench popunjava tu prazninu kao prvi sveobuhvatan benchmark koji mjeri sposobnosti relevantne za stvarnu upotrebu.

Tri ključne dimenzije

Interaktivnost — koliko prirodno agent komunicira s korisnikom, postavlja ispravna pitanja, prati kontekst
Proaktivnost — sposobnost prepoznavanja prilike za pomoć BEZ izričitog upita
Personalizacija — adaptacija na korisničke preference i navike kroz vrijeme

Zašto je ovo važno za mobilne uređaje?

Mobilni agenti imaju jedinstvene izazove u odnosu na desktop:

Manji ekran — manje informacija, agent mora bolje filtrirati
Touch interakcija — kompleksnija od mouse/keyboard
Context switching — korisnik prelazi između aplikacija stalno
Battery i latency — sve mora biti efikasno
Privatnost — telefon zna više o tebi nego desktop

Svi veliki igrači rade na mobilnim agentima:

Apple radi Apple Intelligence integraciju
Google razvija Gemini agente za Android
Microsoft ima Copilot mobile
Specijalizirani projekti poput Imbue Bouncer rade lokalne mobilne agente

Veza s PASK

Zanimljivo je da je KnowU-Bench objavljen istog dana kao PASK (Proactive Agent System with Knowledge) — vidljivo je da istraživačka zajednica koordinirano fokusira na proaktivne mobilne agente. KnowU-Bench će vjerojatno postati standardni alat za evaluaciju modela poput PASK-a.

Implikacije

Za developere mobilnih AI proizvoda, KnowU-Bench pruža:

Standardizirane metrike za usporedbu modela
Realistični test scenariji koji odražavaju stvarnu upotrebu
Početnu točku za vlastite procjene sposobnosti

Za istraživače, otvara nova područja istraživanja gdje se može jasno kvantificirati napredak.