ArXiv HiL-Bench: Kein Frontier-Modell weiss, wann es um Hilfe bitten soll
Warum es wichtig ist
Ein neuer Benchmark deckt einen universellen Beurteilungsmangel bei KI-Agenten auf — wenn Spezifikationen unvollstaendig sind, erreicht kein Frontier-Modell mehr als einen Bruchteil seiner vollen Leistung. Forscher zeigen, dass diese Faehigkeit mit RL trainiert werden kann.
Universelles Beurteilungsproblem
Ein Forscherteam (Elfeki, Trinh, Luu u.a.) hat HiL-Bench (Human-in-the-Loop Benchmark) vorgestellt — den ersten Benchmark, der spezifisch misst, ob KI-Agenten erkennen, wann sie einen Menschen um Hilfe bitten muessen, anstatt zu raten.
Bestehende Benchmarks geben Agenten vollstaendige, eindeutige Anweisungen und messen nur die Ausfuehrungsgenauigkeit. HiL-Bench macht das Gegenteil: Jede Aufgabe enthaelt validierte Blocker — fehlende Informationen, mehrdeutige Anforderungen oder widerspruchliche Spezifikationen — die erst durch progressive Erkundung aufgedeckt werden, nicht im Voraus.
Kein Frontier-Modell besteht
Die Evaluierung ueber SWE- und Text-to-SQL-Domaenen hinweg zeigt eine grosse universelle Beurteilungsluecke: Kein Frontier-Modell erreicht mehr als einen Bruchteil seiner Leistung, wenn es selbst entscheiden muss, ob es um Klaerung bitten soll.
Die neue Ask-F1-Metrik (harmonisches Mittel aus Fragenpraezision und Blocker-Recall) verhindert architektonisch das Gaming durch Fragen-Spamming.
Drei Fehlermuster
Die Analyse identifiziert drei systematische Muster:
- Uebermaessig selbstsichere Fehlueberzeugungen — der Agent erkennt die Informationsluecke nicht
- Hohe Unsicherheitserkennung aber anhaltende Fehler — der Agent erkennt das Problem, eskaliert aber nicht
- Breite, ungenaue Eskalation — der Agent fragt zu allgemein, ohne Selbstkorrektur
Beurteilungsfaehigkeit ist trainierbar
Zentrales Ergebnis: RL-Training mit Ask-F1-Reward-Signal verbessert die Beurteilung. Ein 32B-Modell verbessert nach dem Training sowohl die Fragenqualitaet als auch die Aufgaben-Bestehensrate — mit domainuebergreifendem Transfer. Das Modell lernt keine domainspezifischen Heuristiken, sondern lernt, unloesbare Unsicherheit zu erkennen und darauf zu handeln.
Fuer alle, die KI-Agenten in der Produktion einsetzen, ist dies eine Warnung: Agenten, die bei vollstaendigen Spezifikationen kompetent erscheinen, koennen katastrophal versagen, wenn Informationen fehlen — und das ist die Norm in der realen Welt.
Verwandte Nachrichten
AI2: KI-Agenten loesen 80 % der Schulwissenschaft, aber nur 20 % echter wissenschaftlicher Probleme
ArXiv HiL-Bench: Wissen KI-Agenten, wann sie einen Menschen um Hilfe bitten sollten?
OpenAI und Cloudflare: GPT-5.4 und Codex treiben neue Agent-Cloud-Plattform fuer Unternehmen an