ArXiv HiL-Bench: Znaju li AI agenti kad trebaju pitati čovjeka za pomoć?

Novi benchmark HiL-Bench mjeri sposobnost AI agenata da prepoznaju vlastite granice i zatraže ljudsku pomoć umjesto da nagađaju. Rezultati pokazuju da čak i frontier modeli loše procjenjuju kad im treba pomoć, ali ciljani trening može poboljšati tu sposobnost.

Istraživački tim predstavio je HiL-Bench (Human-in-the-Loop Benchmark), prvi sustavni benchmark koji testira jednu od najvažnijih, a često zanemarenih sposobnosti AI agenata — znaju li prepoznati kad im nedostaju informacije i kad bi trebali pitati čovjeka za pomoć.

Problem samopouzdanog nagađanja

Današnji AI agenti dizajnirani su da budu korisni i djelotvorni. No ta sklonost djelovanju ima tamnu stranu — agenti često nastavljaju s izvršavanjem zadataka čak i kad nemaju dovoljno informacija, radije nagađajući nego priznajući nesigurnost. U kritičnim primjenama poput medicine, financija ili pravnih sustava, to može imati ozbiljne posljedice.

Što otkriva HiL-Bench

Benchmark postavlja agente u situacije gdje neki zadaci zahtijevaju dodatne informacije od korisnika za ispravno rješavanje. Ključno pitanje je: hoće li agent prepoznati tu potrebu i zatražiti pomoć, ili će nastaviti samostalno?

Rezultati su poražavajući — čak i frontier modeli pokazuju nisku sposobnost prepoznavanja vlastitih granica znanja. Agenti dosljedno precjenjuju svoje sposobnosti i rijetko traže pojašnjenja. Ipak, istraživači su otkrili da ciljani trening značajno poboljšava ovu vještinu, što sugerira da je problem rješiv.

Implikacije za industriju

Kako se AI agenti sve više koriste u autonomnim scenarijima, sposobnost prepoznavanja vlastitih ograničenja postaje ključna sigurnosna značajka. HiL-Bench pruža standardizirani način mjerenja ovog aspekta koji bi trebao postati dio svake evaluacije agentskih sustava.

ArXiv HiL-Bench: Znaju li AI agenti kad trebaju pitati čovjeka za pomoć?

Problem samopouzdanog nagađanja

Što otkriva HiL-Bench

Implikacije za industriju

Izvori

Povezane vijesti