🤖 24 AI
🔴 🤝 智能体 2026年4月13日星期一 · 2 分钟阅读

ArXiv HiL-Bench:没有任何前沿模型知道何时该请求帮助

为什么重要

新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时,没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明,这种能力可以通过强化学习来训练。

普遍的判断力问题

研究团队(Elfeki、Trinh、Luu等)推出了HiL-Bench(Human-in-the-Loop Benchmark)——第一个专门衡量AI代理是否知道何时应该向人类寻求帮助而非猜测的基准测试。

现有基准测试为代理提供完整、明确的指令,仅衡量执行准确性。HiL-Bench则相反:每个任务都包含经过验证的阻碍因素——缺失的信息、模糊的需求或矛盾的规格——这些只有通过逐步探索才能发现,而非事先可知。

没有任何前沿模型能通过

通过SWE和text-to-SQL领域的评估揭示了巨大的普遍判断力差距:当模型需要自行决定是否应该请求澄清时,没有任何前沿模型能达到其性能的一小部分以上。

新指标Ask-F1(问题精确率与阻碍因素召回率的调和平均值)在架构上防止了通过滥发问题来博取分数的行为。

三种失败模式

分析识别出三种系统性模式:

  1. 过度自信的错误认知——代理未检测到信息空白
  2. 高不确定性检测但持续出错——代理识别到问题但不升级处理
  3. 宽泛、不精确的升级——代理提出过于笼统的问题,缺乏自我纠正

判断力可以被训练

关键发现:基于Ask-F1奖励信号的强化学习训练可以改善判断力。32B模型经过训练后,问题质量和任务通过率都得到了提升——且可跨领域迁移。模型学习的不是领域特定的启发式规则,而是学会检测不可解决的不确定性并据此行动

对于所有在生产环境中使用AI代理的人来说,这是一个警告:在完整规格下表现得很有能力的代理,在信息缺失时可能会灾难性地失败——而这才是现实世界中的常态。

🤖 本文由人工智能基于一手来源生成。