arXiv:2605.05191: LongSeeker, BrowseComp에서 61.5% 달성

연구자들은 5가지 동적 컨텍스트 관리 작업을 갖춘 Context-ReAct 프레임워크를 사용하는 장기 검색 에이전트 LongSeeker를 발표했습니다. 이 모델은 BrowseComp 벤치마크에서 61.5%를 달성하며 Tongyi DeepResearch를 18 퍼센트 포인트 앞섰습니다.

중국 대학교 팀(저자: Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen)은 2026년 5월 6일 arXiv:2605.05191 번호의 논문을 발표하여 Context-ReAct 프레임워크에 기반한 장기 검색 에이전트 LongSeeker를 소개했습니다.

작업 컨텍스트에 대한 5가지 동적 작업

Context-ReAct 프레임워크의 핵심 아이디어는 에이전트가 전체 궤적을 동일하게 취급해서는 안 된다는 것입니다. 논문은 「궤적의 부분들이 현재 단계와의 관련성에 따라 다른 세부 수준으로 유지된다」고 밝히고 있습니다. 프레임워크는 작업 컨텍스트에 대한 5가지 작업을 도입합니다.

Skip — 관련 없는 단계를 건너뜁니다.
Compress — 긴 세그먼트를 더 짧은 표현으로 압축합니다.
Rollback — 현재 분기가 목표로 이어지지 않는 경우 궤적의 이전 노드로 돌아갑니다.
Snippet — 가져온 페이지에서 구체적인 발췌문을 보존합니다.
Delete — 잘못되거나 오래된 내용을 컨텍스트에서 제거합니다.

이러한 각 작업은 에이전트를 컨텍스트 오버플로우로부터 보호합니다. 이는 긴 일련의 단계를 실행하는 에이전트 시스템의 만성적인 문제입니다.

성능 및 비교

LongSeeker는 Qwen3-30B-A3B 기반에서 10,000개의 합성 궤적을 사용해 미세 조정되었습니다. BrowseComp 벤치마크에서 61.5%, 중국어 버전 BrowseComp-ZH에서 **62.5%**를 달성했습니다. 경쟁자들은 크게 뒤처집니다. Tongyi DeepResearch는 각각 43.2%와 46.7%, AgentFold는 36.2%와 47.3%를 달성했습니다. Tongyi DeepResearch 대비 18 퍼센트 포인트 이상의 차이는 현재 BrowseComp에서 기록된 최대 격차입니다.

왜 중요합니까?

대부분의 ReAct 기반 에이전트는 컨텍스트의 선형적 증가 문제를 겪습니다. 각 단계가 이전 단계의 원시 내용을 추가합니다. Context-ReAct는 프로그래머가 메모리를 관리하는 방식과 유사하게, 명시적 컨텍스트 관리를 최우선 작업으로 도입합니다. 이는 기본 모델의 창 크기에 제한받지 않는 장기 에이전트 세션으로 가는 길을 열어줍니다.

자주 묻는 질문

BrowseComp란 무엇입니까?

BrowseComp는 여러 단계, 여러 페이지, 발견 사항을 최종 답변으로 통합하는 복잡한 장기 웹 검색 작업을 해결하는 에이전트를 위한 벤치마크입니다.

Context-ReAct 프레임워크의 5가지 작업은 무엇입니까?

Skip, Compress, Rollback, Snippet, Delete — 장기 작업 중 에이전트가 작업 컨텍스트를 적응적으로 재구성할 수 있게 하는 작업들입니다.

LongSeeker는 다른 시스템과 비교하면 어떻습니까?

BrowseComp에서 61.5%, BrowseComp-ZH에서 62.5%를 달성했으며, Tongyi DeepResearch의 43.2%/46.7%, AgentFold의 36.2%/47.3%를 앞섭니다.

arXiv:2605.05191: LongSeeker, Context-ReAct 프레임워크로 BrowseComp에서 61.5% 달성

작업 컨텍스트에 대한 5가지 동적 작업

성능 및 비교

왜 중요합니까?

자주 묻는 질문

출처

관련 뉴스