ArXiv HiL-Bench: Kein Frontier-Modell weiss, wann es um Hilfe bitten soll

Universelles Beurteilungsproblem

Ein Forscherteam (Elfeki, Trinh, Luu u.a.) hat HiL-Bench (Human-in-the-Loop Benchmark) vorgestellt — den ersten Benchmark, der spezifisch misst, ob KI-Agenten erkennen, wann sie einen Menschen um Hilfe bitten muessen, anstatt zu raten.

Bestehende Benchmarks geben Agenten vollstaendige, eindeutige Anweisungen und messen nur die Ausfuehrungsgenauigkeit. HiL-Bench macht das Gegenteil: Jede Aufgabe enthaelt validierte Blocker — fehlende Informationen, mehrdeutige Anforderungen oder widerspruchliche Spezifikationen — die erst durch progressive Erkundung aufgedeckt werden, nicht im Voraus.

Kein Frontier-Modell besteht

Die Evaluierung ueber SWE- und Text-to-SQL-Domaenen hinweg zeigt eine grosse universelle Beurteilungsluecke: Kein Frontier-Modell erreicht mehr als einen Bruchteil seiner Leistung, wenn es selbst entscheiden muss, ob es um Klaerung bitten soll.

Die neue Ask-F1-Metrik (harmonisches Mittel aus Fragenpraezision und Blocker-Recall) verhindert architektonisch das Gaming durch Fragen-Spamming.

Drei Fehlermuster

Die Analyse identifiziert drei systematische Muster:

Uebermaessig selbstsichere Fehlueberzeugungen — der Agent erkennt die Informationsluecke nicht
Hohe Unsicherheitserkennung aber anhaltende Fehler — der Agent erkennt das Problem, eskaliert aber nicht
Breite, ungenaue Eskalation — der Agent fragt zu allgemein, ohne Selbstkorrektur

Beurteilungsfaehigkeit ist trainierbar

Zentrales Ergebnis: RL-Training mit Ask-F1-Reward-Signal verbessert die Beurteilung. Ein 32B-Modell verbessert nach dem Training sowohl die Fragenqualitaet als auch die Aufgaben-Bestehensrate — mit domainuebergreifendem Transfer. Das Modell lernt keine domainspezifischen Heuristiken, sondern lernt, unloesbare Unsicherheit zu erkennen und darauf zu handeln.

Fuer alle, die KI-Agenten in der Produktion einsetzen, ist dies eine Warnung: Agenten, die bei vollstaendigen Spezifikationen kompetent erscheinen, koennen katastrophal versagen, wenn Informationen fehlen — und das ist die Norm in der realen Welt.

ArXiv HiL-Bench: Kein Frontier-Modell weiss, wann es um Hilfe bitten soll

Universelles Beurteilungsproblem

Kein Frontier-Modell besteht

Drei Fehlermuster

Beurteilungsfaehigkeit ist trainierbar

Quellen

Verwandte Nachrichten