ArXiv KnowU-Bench: novi benchmark za interaktivne i proaktivne mobilne AI agente
Zašto je bitno
Istraživači su predstavili KnowU-Bench — sveobuhvatan benchmark za evaluaciju nove generacije mobilnih AI agenata, fokusirajući se na interaktivnost, proaktivnost i personalizaciju kroz dugoročnu upotrebu.
Praznina u evaluaciji mobilnih agenata
Trenutni benchmarkovi za mobilne AI agente uglavnom mjere statičke sposobnosti — može li agent izvršiti zadatak A, kakvo mu je razumijevanje ekrana, koliko je točan u OCR-u. Ali stvarni mobilni asistenti trebaju biti interaktivni, proaktivni i personalizirani — a to dosad nije bilo dobro evaluirano.
KnowU-Bench popunjava tu prazninu kao prvi sveobuhvatan benchmark koji mjeri sposobnosti relevantne za stvarnu upotrebu.
Tri ključne dimenzije
- Interaktivnost — koliko prirodno agent komunicira s korisnikom, postavlja ispravna pitanja, prati kontekst
- Proaktivnost — sposobnost prepoznavanja prilike za pomoć BEZ izričitog upita
- Personalizacija — adaptacija na korisničke preference i navike kroz vrijeme
Zašto je ovo važno za mobilne uređaje?
Mobilni agenti imaju jedinstvene izazove u odnosu na desktop:
- Manji ekran — manje informacija, agent mora bolje filtrirati
- Touch interakcija — kompleksnija od mouse/keyboard
- Context switching — korisnik prelazi između aplikacija stalno
- Battery i latency — sve mora biti efikasno
- Privatnost — telefon zna više o tebi nego desktop
Svi veliki igrači rade na mobilnim agentima:
- Apple radi Apple Intelligence integraciju
- Google razvija Gemini agente za Android
- Microsoft ima Copilot mobile
- Specijalizirani projekti poput Imbue Bouncer rade lokalne mobilne agente
Veza s PASK
Zanimljivo je da je KnowU-Bench objavljen istog dana kao PASK (Proactive Agent System with Knowledge) — vidljivo je da istraživačka zajednica koordinirano fokusira na proaktivne mobilne agente. KnowU-Bench će vjerojatno postati standardni alat za evaluaciju modela poput PASK-a.
Implikacije
Za developere mobilnih AI proizvoda, KnowU-Bench pruža:
- Standardizirane metrike za usporedbu modela
- Realistični test scenariji koji odražavaju stvarnu upotrebu
- Početnu točku za vlastite procjene sposobnosti
Za istraživače, otvara nova područja istraživanja gdje se može jasno kvantificirati napredak.