ArXiv HiL-Bench: Wissen KI-Agenten, wann sie einen Menschen um Hilfe bitten sollten?

Ein Forschungsteam hat HiL-Bench (Human-in-the-Loop Benchmark) vorgestellt, den ersten systematischen Benchmark, der eine der wichtigsten, aber oft uebersehenen Faehigkeiten von KI-Agenten testet — ob sie erkennen koennen, wann ihnen Informationen fehlen und sie einen Menschen um Hilfe bitten sollten.

Das Problem des selbstbewussten Ratens

Heutige KI-Agenten sind darauf ausgelegt, hilfreich und effektiv zu sein. Doch diese Handlungsneigung hat eine Schattenseite — Agenten fuehren oft Aufgaben weiter aus, selbst wenn ihnen ausreichende Informationen fehlen, und raten lieber, als Unsicherheit einzugestehen. In kritischen Anwendungen wie Medizin, Finanzen oder Rechtssystemen kann dies schwerwiegende Folgen haben.

Was HiL-Bench offenbart

Der Benchmark versetzt Agenten in Situationen, in denen einige Aufgaben zusaetzliche Informationen vom Benutzer fuer eine korrekte Loesung erfordern. Die Schluesselfrage lautet: Erkennt der Agent diesen Bedarf und bittet um Hilfe, oder faehrt er eigenstaendig fort?

Die Ergebnisse sind ernuechternd — selbst Frontier-Modelle zeigen eine geringe Faehigkeit, die Grenzen ihres eigenen Wissens zu erkennen. Agenten ueberschaetzen konsequent ihre Faehigkeiten und bitten selten um Klaerung. Die Forscher stellten jedoch fest, dass gezieltes Training diese Faehigkeit erheblich verbessert, was darauf hindeutet, dass das Problem loesbar ist.

Implikationen fuer die Branche

Da KI-Agenten zunehmend in autonomen Szenarien eingesetzt werden, wird die Faehigkeit, die eigenen Grenzen zu erkennen, zu einem kritischen Sicherheitsmerkmal. HiL-Bench bietet eine standardisierte Methode zur Messung dieses Aspekts, die Teil jeder Evaluierung agentischer Systeme werden sollte.

ArXiv HiL-Bench: Wissen KI-Agenten, wann sie einen Menschen um Hilfe bitten sollten?

Das Problem des selbstbewussten Ratens

Was HiL-Bench offenbart

Implikationen fuer die Branche

Quellen

Verwandte Nachrichten