🤖 24 AI
🟢 🤝 Agenti subota, 11. travnja 2026. · 2 min čitanja

ArXiv KnowU-Bench: novi benchmark za interaktivne i proaktivne mobilne AI agente

Zašto je bitno

Istraživači su predstavili KnowU-Bench — sveobuhvatan benchmark za evaluaciju nove generacije mobilnih AI agenata, fokusirajući se na interaktivnost, proaktivnost i personalizaciju kroz dugoročnu upotrebu.

Praznina u evaluaciji mobilnih agenata

Trenutni benchmarkovi za mobilne AI agente uglavnom mjere statičke sposobnosti — može li agent izvršiti zadatak A, kakvo mu je razumijevanje ekrana, koliko je točan u OCR-u. Ali stvarni mobilni asistenti trebaju biti interaktivni, proaktivni i personalizirani — a to dosad nije bilo dobro evaluirano.

KnowU-Bench popunjava tu prazninu kao prvi sveobuhvatan benchmark koji mjeri sposobnosti relevantne za stvarnu upotrebu.

Tri ključne dimenzije

  1. Interaktivnost — koliko prirodno agent komunicira s korisnikom, postavlja ispravna pitanja, prati kontekst
  2. Proaktivnost — sposobnost prepoznavanja prilike za pomoć BEZ izričitog upita
  3. Personalizacija — adaptacija na korisničke preference i navike kroz vrijeme

Zašto je ovo važno za mobilne uređaje?

Mobilni agenti imaju jedinstvene izazove u odnosu na desktop:

  • Manji ekran — manje informacija, agent mora bolje filtrirati
  • Touch interakcija — kompleksnija od mouse/keyboard
  • Context switching — korisnik prelazi između aplikacija stalno
  • Battery i latency — sve mora biti efikasno
  • Privatnost — telefon zna više o tebi nego desktop

Svi veliki igrači rade na mobilnim agentima:

  • Apple radi Apple Intelligence integraciju
  • Google razvija Gemini agente za Android
  • Microsoft ima Copilot mobile
  • Specijalizirani projekti poput Imbue Bouncer rade lokalne mobilne agente

Veza s PASK

Zanimljivo je da je KnowU-Bench objavljen istog dana kao PASK (Proactive Agent System with Knowledge) — vidljivo je da istraživačka zajednica koordinirano fokusira na proaktivne mobilne agente. KnowU-Bench će vjerojatno postati standardni alat za evaluaciju modela poput PASK-a.

Implikacije

Za developere mobilnih AI proizvoda, KnowU-Bench pruža:

  • Standardizirane metrike za usporedbu modela
  • Realistični test scenariji koji odražavaju stvarnu upotrebu
  • Početnu točku za vlastite procjene sposobnosti

Za istraživače, otvara nova područja istraživanja gdje se može jasno kvantificirati napredak.

🤖 Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.