ArXiv KnowU-Bench: novi benchmark za interaktivne i proaktivne mobilne AI agente
Zašto je bitno
Istraživači su predstavili KnowU-Bench — sveobuhvatan benchmark za evaluaciju nove generacije mobilnih AI agenata, fokusirajući se na interaktivnost, proaktivnost i personalizaciju kroz dugoročnu upotrebu.
Praznina u evaluaciji mobilnih agenata
Trenutni benchmarkovi za mobilne AI agente uglavnom mjere statičke sposobnosti — može li agent izvršiti zadatak A, kakvo mu je razumijevanje ekrana, koliko je točan u OCR-u. Ali stvarni mobilni asistenti trebaju biti interaktivni, proaktivni i personalizirani — a to dosad nije bilo dobro evaluirano.
KnowU-Bench popunjava tu prazninu kao prvi sveobuhvatan benchmark koji mjeri sposobnosti relevantne za stvarnu upotrebu.
Tri ključne dimenzije
- Interaktivnost — koliko prirodno agent komunicira s korisnikom, postavlja ispravna pitanja, prati kontekst
- Proaktivnost — sposobnost prepoznavanja prilike za pomoć BEZ izričitog upita
- Personalizacija — adaptacija na korisničke preference i navike kroz vrijeme
Zašto je ovo važno za mobilne uređaje?
Mobilni agenti imaju jedinstvene izazove u odnosu na desktop:
- Manji ekran — manje informacija, agent mora bolje filtrirati
- Touch interakcija — kompleksnija od mouse/keyboard
- Context switching — korisnik prelazi između aplikacija stalno
- Battery i latency — sve mora biti efikasno
- Privatnost — telefon zna više o tebi nego desktop
Svi veliki igrači rade na mobilnim agentima:
- Apple radi Apple Intelligence integraciju
- Google razvija Gemini agente za Android
- Microsoft ima Copilot mobile
- Specijalizirani projekti poput Imbue Bouncer rade lokalne mobilne agente
Veza s PASK
Zanimljivo je da je KnowU-Bench objavljen istog dana kao PASK (Proactive Agent System with Knowledge) — vidljivo je da istraživačka zajednica koordinirano fokusira na proaktivne mobilne agente. KnowU-Bench će vjerojatno postati standardni alat za evaluaciju modela poput PASK-a.
Implikacije
Za developere mobilnih AI proizvoda, KnowU-Bench pruža:
- Standardizirane metrike za usporedbu modela
- Realistični test scenariji koji odražavaju stvarnu upotrebu
- Početnu točku za vlastite procjene sposobnosti
Za istraživače, otvara nova područja istraživanja gdje se može jasno kvantificirati napredak.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave