ArXiv HiL-Bench: nijedan frontier model ne zna kad treba pitati za pomoć
Zašto je bitno
Novi benchmark otkriva univerzalni nedostatak prosudbe kod AI agenata — kad specifikacije nisu potpune, nijedan frontier model ne postiže više od djelića svoje pune performanse. Istraživači pokazuju da se ta vještina može trenirati RL-om.
Univerzalni problem prosudbe
Tim istraživača (Elfeki, Trinh, Luu i dr.) predstavio je HiL-Bench (Human-in-the-Loop Benchmark) — prvi benchmark koji specifično mjeri znaju li AI agenti prepoznati kad trebaju pitati čovjeka za pomoć umjesto da pogađaju.
Postojeći benchmarci daju agentima potpune, nedvosmislene upute i mjere samo točnost izvršavanja. HiL-Bench radi suprotno: svaki zadatak sadrži validirane blokere — nedostajuće informacije, dvosmislene zahtjeve ili kontradiktorne specifikacije — koji se otkrivaju tek progresivnim istraživanjem, ne unaprijed.
Nijedan frontier model ne prolazi
Evaluacija kroz SWE i text-to-SQL domene otkriva veliki univerzalni jaz u prosudbi: nijedan frontier model ne postiže više od djelića svoje performanse kad mora sam odlučiti treba li pitati za pojašnjenje.
Nova metrika Ask-F1 (harmonijska sredina preciznosti pitanja i recall blokera) arhitekturalno sprječava gaming spamiranjem pitanja.
Tri obrasca neuspjeha
Analiza identificira tri sistematska obrasca:
- Samouvjerena pogrešna uvjerenja — agent ne detektira prazninu u informacijama
- Visoka detekcija nesigurnosti ali uporne greške — agent prepoznaje problem ali ne eskalira
- Široka, neprecizna eskalacija — agent pita previše općenito, bez samokorekcije
Prosudba se može trenirati
Ključni nalaz: RL trening na Ask-F1 reward signalu poboljšava prosudbu. 32B model nakon treninga poboljšava i kvalitetu pitanja i stopu prolaznosti zadataka — s transferom između domena. Model ne uči domenski specifične heuristike, nego uči detektirati nerješivu nesigurnost i djelovati na nju.
Za sve koji koriste AI agente u produkciji, ovo je upozorenje: agenti koji izgledaju kompetentno na potpunim specifikacijama mogu katastrofalno zakazati kad informacije nedostaju — a to je norma u stvarnom svijetu.