🤖 24 AI
🔴 🤝 Agenti ponedjeljak, 13. travnja 2026. · 2 min čitanja

ArXiv HiL-Bench: nijedan frontier model ne zna kad treba pitati za pomoć

Zašto je bitno

Novi benchmark otkriva univerzalni nedostatak prosudbe kod AI agenata — kad specifikacije nisu potpune, nijedan frontier model ne postiže više od djelića svoje pune performanse. Istraživači pokazuju da se ta vještina može trenirati RL-om.

Univerzalni problem prosudbe

Tim istraživača (Elfeki, Trinh, Luu i dr.) predstavio je HiL-Bench (Human-in-the-Loop Benchmark) — prvi benchmark koji specifično mjeri znaju li AI agenti prepoznati kad trebaju pitati čovjeka za pomoć umjesto da pogađaju.

Postojeći benchmarci daju agentima potpune, nedvosmislene upute i mjere samo točnost izvršavanja. HiL-Bench radi suprotno: svaki zadatak sadrži validirane blokere — nedostajuće informacije, dvosmislene zahtjeve ili kontradiktorne specifikacije — koji se otkrivaju tek progresivnim istraživanjem, ne unaprijed.

Nijedan frontier model ne prolazi

Evaluacija kroz SWE i text-to-SQL domene otkriva veliki univerzalni jaz u prosudbi: nijedan frontier model ne postiže više od djelića svoje performanse kad mora sam odlučiti treba li pitati za pojašnjenje.

Nova metrika Ask-F1 (harmonijska sredina preciznosti pitanja i recall blokera) arhitekturalno sprječava gaming spamiranjem pitanja.

Tri obrasca neuspjeha

Analiza identificira tri sistematska obrasca:

  1. Samouvjerena pogrešna uvjerenja — agent ne detektira prazninu u informacijama
  2. Visoka detekcija nesigurnosti ali uporne greške — agent prepoznaje problem ali ne eskalira
  3. Široka, neprecizna eskalacija — agent pita previše općenito, bez samokorekcije

Prosudba se može trenirati

Ključni nalaz: RL trening na Ask-F1 reward signalu poboljšava prosudbu. 32B model nakon treninga poboljšava i kvalitetu pitanja i stopu prolaznosti zadataka — s transferom između domena. Model ne uči domenski specifične heuristike, nego uči detektirati nerješivu nesigurnost i djelovati na nju.

Za sve koji koriste AI agente u produkciji, ovo je upozorenje: agenti koji izgledaju kompetentno na potpunim specifikacijama mogu katastrofalno zakazati kad informacije nedostaju — a to je norma u stvarnom svijetu.

🤖 Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.