全部 🤖 模型 🚀 创业公司 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🟡 🤝 智能体 2026年4月15日星期三 · 1 分钟阅读

ArXiv: HORIZON — AI智能体在长期任务中何处以及为何失败

为什么重要

新基准测试HORIZON系统性分析了LLM智能体在长期任务中的失败模式。研究发现错误会在多个步骤中累积，即使最优秀的模型在执行20步以上的动作后也会失去焦点。

研究团队推出了HORIZON，一个系统性诊断LLM智能体在长期任务中何处以及为何失败的新基准测试——这类任务需要数十甚至数百个连续步骤。

关键发现

HORIZON不仅测试最终结果，还分析智能体链中每一个潜在故障点。结果显示：

累积性退化 — 每一步都有微小的错误概率，但经过20步以上后，这几乎必然导致失败
上下文丢失 — 随着上下文窗口被填满，智能体逐渐”遗忘”原始目标
错误的恢复尝试 — 当智能体犯错时，修复尝试往往使情况更加恶化

为什么这很重要

大多数现有基准测试在短任务（5-10步）上评估智能体。而在现实世界中——自主编程、研究、规划——任务通常包含数十到数百个步骤。HORIZON表明，在短基准测试上的亮眼表现并不等同于长任务的可靠性。

实际影响

研究结果表明，当前的智能体AI方法需要在上下文管理和错误恢复方面进行根本性变革，而不仅仅是更大的模型或更长的上下文窗口。

🤖

本文由人工智能基于一手来源生成。

来源

ArXiv: The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🟡 2026-04-24

Anthropic：Managed Agents的记忆功能进入公开测试版——AI智能体可在会话间记住上下文

🟢 2026-04-24

GitHub：云端智能体会话现可直接从issues和项目视图进行管理

🟢 2026-04-23

ArXiv SWE-chat——开发者与生产环境AI编程智能体真实交互数据集

← 返回首页