ArXiv HiL-Bench: Kein Frontier-Modell weiss, wann es um Hilfe bitten soll
Ein neuer Benchmark deckt einen universellen Beurteilungsmangel bei KI-Agenten auf — wenn Spezifikationen unvollstaendig sind, erreicht kein Frontier-Modell mehr als einen Bruchteil seiner vollen Leistung. Forscher zeigen, dass diese Faehigkeit mit RL trainiert werden kann.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Universelles Beurteilungsproblem
Ein Forscherteam (Elfeki, Trinh, Luu u.a.) hat HiL-Bench (Human-in-the-Loop Benchmark) vorgestellt — den ersten Benchmark, der spezifisch misst, ob KI-Agenten erkennen, wann sie einen Menschen um Hilfe bitten muessen, anstatt zu raten.
Bestehende Benchmarks geben Agenten vollstaendige, eindeutige Anweisungen und messen nur die Ausfuehrungsgenauigkeit. HiL-Bench macht das Gegenteil: Jede Aufgabe enthaelt validierte Blocker — fehlende Informationen, mehrdeutige Anforderungen oder widerspruchliche Spezifikationen — die erst durch progressive Erkundung aufgedeckt werden, nicht im Voraus.
Kein Frontier-Modell besteht
Die Evaluierung ueber SWE- und Text-to-SQL-Domaenen hinweg zeigt eine grosse universelle Beurteilungsluecke: Kein Frontier-Modell erreicht mehr als einen Bruchteil seiner Leistung, wenn es selbst entscheiden muss, ob es um Klaerung bitten soll.
Die neue Ask-F1-Metrik (harmonisches Mittel aus Fragenpraezision und Blocker-Recall) verhindert architektonisch das Gaming durch Fragen-Spamming.
Drei Fehlermuster
Die Analyse identifiziert drei systematische Muster:
- Uebermaessig selbstsichere Fehlueberzeugungen — der Agent erkennt die Informationsluecke nicht
- Hohe Unsicherheitserkennung aber anhaltende Fehler — der Agent erkennt das Problem, eskaliert aber nicht
- Breite, ungenaue Eskalation — der Agent fragt zu allgemein, ohne Selbstkorrektur
Beurteilungsfaehigkeit ist trainierbar
Zentrales Ergebnis: RL-Training mit Ask-F1-Reward-Signal verbessert die Beurteilung. Ein 32B-Modell verbessert nach dem Training sowohl die Fragenqualitaet als auch die Aufgaben-Bestehensrate — mit domainuebergreifendem Transfer. Das Modell lernt keine domainspezifischen Heuristiken, sondern lernt, unloesbare Unsicherheit zu erkennen und darauf zu handeln.
Fuer alle, die KI-Agenten in der Produktion einsetzen, ist dies eine Warnung: Agenten, die bei vollstaendigen Spezifikationen kompetent erscheinen, koennen katastrophal versagen, wenn Informationen fehlen — und das ist die Norm in der realen Welt.
Verwandte Nachrichten
arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten
arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern
arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation