ArXiv HiL-Bench:いつ助けを求めるべきか分かるフロンティアモデルは一つもない
なぜ重要か
新しいベンチマークがAIエージェントの判断力における普遍的な欠陥を明らかにした——仕様が不完全な場合、いかなるフロンティアモデルもフルパフォーマンスのごくわずかしか達成できない。研究者たちは、このスキルが強化学習で訓練可能であることを示した。
普遍的な判断力の問題
研究チーム(Elfeki、Trinh、Luu他)がHiL-Bench(Human-in-the-Loop Benchmark)を発表した——AIエージェントが推測する代わりに人間に助けを求めるべき場面を認識できるかどうかを特定的に測定する初のベンチマークである。
既存のベンチマークはエージェントに完全で曖昧さのない指示を与え、実行精度のみを測定する。HiL-Benchはその逆を行う:各タスクには検証済みのブロッカー——欠落情報、曖昧な要件、矛盾する仕様——が含まれており、それらは事前にではなく段階的な調査によってのみ発見される。
いかなるフロンティアモデルも合格しない
SWEおよびtext-to-SQLドメインでの評価により、大きな普遍的な判断力のギャップが明らかになった:明確化を求めるべきかどうかを自ら判断しなければならない場合、いかなるフロンティアモデルもパフォーマンスのごくわずかしか達成できない。
新しい指標Ask-F1(質問の精度とブロッカーの再現率の調和平均)は、質問のスパムによるゲーミングをアーキテクチャ的に防止する。
3つの失敗パターン
分析により3つの体系的パターンが特定された:
- 過信による誤った確信——エージェントが情報のギャップを検出しない
- 高い不確実性検出だが持続するエラー——エージェントが問題を認識するがエスカレーションしない
- 広範で不正確なエスカレーション——エージェントが過度に一般的な質問をし、自己修正しない
判断力は訓練可能
重要な発見:Ask-F1報酬シグナルによるRL訓練は判断力を改善する。32Bモデルは訓練後、質問の質とタスクの合格率の両方が向上し——ドメイン間での転移も見られた。モデルはドメイン固有のヒューリスティクスを学ぶのではなく、解決不可能な不確実性を検出しそれに基づいて行動することを学習する。
本番環境でAIエージェントを使用するすべての人への警告:完全な仕様では有能に見えるエージェントが、情報が欠落している場合には壊滅的に失敗する可能性がある——そしてそれが現実世界では常態である。