ArXiv: HORIZON -- AI 에이전트가 장기 작업에서 실패하는 위치와 이유

연구팀이 HORIZON을 발표했습니다. 수십에서 수백 개의 연속적인 단계를 필요로 하는 작업에서 LLM 에이전트가 어디서, 왜 실패하는지를 체계적으로 진단하는 새로운 벤치마크입니다.

주요 발견

HORIZON은 최종 결과만이 아니라 에이전트 체인의 모든 잠재적 장애 지점을 분석합니다. 결과는 다음을 보여줍니다:

누적적 성능 저하 — 각 단계마다 작은 오류 확률이 있지만, 20단계 이상을 거치면 거의 확실한 장애로 이어집니다
컨텍스트 소실 — 컨텍스트 윈도우가 채워지면서 에이전트는 점차 원래 목표를 “잊어버립니다”
잘못된 복구 시도 — 에이전트가 실수를 하면 복구 시도가 상황을 더 악화시키는 경우가 많습니다

왜 중요한가

대부분의 기존 벤치마크는 짧은 작업(5-10단계)에서 에이전트를 테스트합니다. 하지만 실제 세계에서는 — 자율 코딩, 연구, 계획 수립 — 작업이 수십에서 수백 단계를 포함합니다. HORIZON은 짧은 벤치마크에서의 인상적인 결과가 장기 작업에서의 신뢰성을 의미하지 않는다는 것을 보여줍니다.

실질적 시사점

연구 결과는 현재의 에이전트 AI 접근 방식이 단순히 더 큰 모델이나 더 긴 컨텍스트 윈도우가 아니라, 컨텍스트 관리와 오류 복구에서의 근본적인 변화가 필요하다는 것을 시사합니다.

ArXiv: HORIZON -- AI 에이전트가 장기 작업에서 실패하는 위치와 이유

주요 발견

왜 중요한가

실질적 시사점

출처

관련 뉴스