🤖 24 AI
🟡 🤝 智能体 2026年4月15日星期三 · 1 分钟阅读

ArXiv: HORIZON — AI智能体在长期任务中何处以及为何失败

为什么重要

新基准测试HORIZON系统性分析了LLM智能体在长期任务中的失败模式。研究发现错误会在多个步骤中累积,即使最优秀的模型在执行20步以上的动作后也会失去焦点。

研究团队推出了HORIZON,一个系统性诊断LLM智能体在长期任务中何处以及为何失败的新基准测试——这类任务需要数十甚至数百个连续步骤。

关键发现

HORIZON不仅测试最终结果,还分析智能体链中每一个潜在故障点。结果显示:

  • 累积性退化 — 每一步都有微小的错误概率,但经过20步以上后,这几乎必然导致失败
  • 上下文丢失 — 随着上下文窗口被填满,智能体逐渐”遗忘”原始目标
  • 错误的恢复尝试 — 当智能体犯错时,修复尝试往往使情况更加恶化

为什么这很重要

大多数现有基准测试在短任务(5-10步)上评估智能体。而在现实世界中——自主编程、研究、规划——任务通常包含数十到数百个步骤。HORIZON表明,在短基准测试上的亮眼表现并不等同于长任务的可靠性。

实际影响

研究结果表明,当前的智能体AI方法需要在上下文管理和错误恢复方面进行根本性变革,而不仅仅是更大的模型或更长的上下文窗口。

🤖

本文由人工智能基于一手来源生成。