arXiv:2605.05191: LongSeekerがBrowseCompで61.5%を達成

研究者らは、5つの動的コンテキスト管理オペレーションを持つContext-ReActフレームワークを使用した長期検索エージェントLongSeekerを発表しました。このモデルはBrowseCompベンチマークで61.5%を達成し、Tongyi DeepResearchを18ポイント上回りました。

中国の大学のチーム（著者：Yijun Lu、Rui Ye、Yuwen Du、Jiajun Wang、Songhua Liu、Siheng Chen）は2026年5月6日、arXiv:2605.05191という番号の論文を発表し、Context-ReActフレームワークに基づく長期検索エージェントLongSeekerを紹介しました。

作業コンテキストに対する5つの動的オペレーション

Context-ReActフレームワークの主なアイデアは、エージェントが軌跡全体を均等に扱うべきではないということです。論文では「軌跡の各部分は現在のステップへの関連性に応じて異なる詳細レベルで維持される」と述べています。フレームワークは作業コンテキストに対する5つのオペレーションを導入します：

Skip — 無関係なステップをスキップする。
Compress — 長いセグメントをより短い表現に圧縮する。
Rollback — 現在のブランチが目標に向かっていない場合、軌跡の以前のノードに戻る。
Snippet — 取得したページから具体的な断片を保持する。
Delete — 誤った、または古いコンテンツをコンテキストから削除する。

これらの各オペレーションはエージェントをコンテキストのオーバーフローから守ります。これは長い一連のステップを実行するエージェントシステムの慢性的な問題です。

パフォーマンスと比較

LongSeekerはQwen3-30B-A3Bベースで10,000の合成軌跡を使用してファインチューニングされています。BrowseCompベンチマークで61.5%、中国語版BrowseComp-ZHで**62.5%**を達成しています。競合他社は大きく後れを取っています：Tongyi DeepResearchはそれぞれ43.2%と46.7%、AgentFoldは36.2%と47.3%です。Tongyi DeepResearchとの18ポイント以上の差は、現在BrowseCompで記録されている最大の差です。

なぜこれが重要なのですか？

ReActベースのほとんどのエージェントはコンテキストの線形成長という問題を抱えています。各ステップが以前のステップの生のコンテンツを追加します。Context-ReActは、プログラマーがメモリを管理するのと同様に、明示的なコンテキスト管理を最初のクラスのオペレーションとして導入します。これにより、基礎モデルのウィンドウサイズに制限されない長期エージェントセッションへの道が開かれます。

よくある質問

BrowseCompとは何ですか？

BrowseCompは、複数のステップ、複数のページ、最終回答への発見の統合を含む複雑な長期的なウェブ検索タスクを解くエージェントのベンチマークです。

Context-ReActフレームワークの5つのオペレーションは何ですか？

Skip、Compress、Rollback、Snippet、Delete — 長期タスク中にエージェントが作業コンテキストを適応的に再形成できるオペレーションです。

LongSeekerは他のシステムと比べてどうですか？

BrowseCompで61.5%、BrowseComp-ZHで62.5%を達成し、Tongyi DeepResearchの43.2%/46.7%、AgentFoldの36.2%/47.3%を上回ります。

arXiv:2605.05191: LongSeekerがContext-ReActフレームワークでBrowseCompにて61.5%を達成

作業コンテキストに対する5つの動的オペレーション

パフォーマンスと比較

なぜこれが重要なのですか？

よくある質問

出典

関連ニュース