全部 🤖 模型 🚀 创业公司 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🔴 🤝 智能体 2026年4月13日星期一 · 2 分钟阅读

ArXiv HiL-Bench：没有任何前沿模型知道何时该请求帮助

为什么重要

新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时，没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明，这种能力可以通过强化学习来训练。

普遍的判断力问题

研究团队（Elfeki、Trinh、Luu等）推出了HiL-Bench（Human-in-the-Loop Benchmark）——第一个专门衡量AI代理是否知道何时应该向人类寻求帮助而非猜测的基准测试。

现有基准测试为代理提供完整、明确的指令，仅衡量执行准确性。HiL-Bench则相反：每个任务都包含经过验证的阻碍因素——缺失的信息、模糊的需求或矛盾的规格——这些只有通过逐步探索才能发现，而非事先可知。

没有任何前沿模型能通过

通过SWE和text-to-SQL领域的评估揭示了巨大的普遍判断力差距：当模型需要自行决定是否应该请求澄清时，没有任何前沿模型能达到其性能的一小部分以上。

新指标Ask-F1（问题精确率与阻碍因素召回率的调和平均值）在架构上防止了通过滥发问题来博取分数的行为。

三种失败模式

分析识别出三种系统性模式：

过度自信的错误认知——代理未检测到信息空白
高不确定性检测但持续出错——代理识别到问题但不升级处理
宽泛、不精确的升级——代理提出过于笼统的问题，缺乏自我纠正

判断力可以被训练

关键发现：基于Ask-F1奖励信号的强化学习训练可以改善判断力。32B模型经过训练后，问题质量和任务通过率都得到了提升——且可跨领域迁移。模型学习的不是领域特定的启发式规则，而是学会检测不可解决的不确定性并据此行动。

对于所有在生产环境中使用AI代理的人来说，这是一个警告：在完整规格下表现得很有能力的代理，在信息缺失时可能会灾难性地失败——而这才是现实世界中的常态。

🤖 本文由人工智能基于一手来源生成。

来源

ArXiv：HiL-Bench——AI代理知道何时该请求帮助吗？ ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🟡 2026-04-14

AI2：AI智能体能解决80%的教科书科学题，但只能完成20%的真实科学问题

🟡 2026-04-14

ArXiv HiL-Bench：AI智能体知道何时该向人类求助吗？

🔴 2026-04-14

OpenAI与Cloudflare：GPT-5.4和Codex驱动面向企业的全新Agent Cloud平台

← 返回首页