🟡 🤝 에이전트 게시일: · 2 분 읽기 ·

arXiv:2605.31584: LongTraceRL, search 에이전트의 trajectory로부터 장문맥 추론을 학습

arXiv:2605.31584 ↗

편집 일러스트레이션: search 에이전트의 trajectory로부터 장문맥 추론을 학습하는 LongTraceRL

LongTraceRL은 장문맥 추론을 위한 새로운 강화학습 접근법이다. 단계화된(tiered) 디스트랙터를 갖춘 search 에이전트의 trajectory로부터 학습 데이터를 구축하고, 엔티티 수준의 프로세스 감독과 함께 루브릭 보상을 사용하여, 40억~300억 파라미터 모델에서 다섯 개 벤치마크에 걸쳐 일관된 향상을 달성한다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

논문 arXiv:2605.31584은 **장문맥 추론(long-context reasoning)**의 난제 — 대규모 언어 모델이 방대한 양의 방해 콘텐츠 속에서 핵심 정보를 찾아 연결하기 어려운 상황 — 를 해결하는 강화학습(reinforcement learning, RL) 방법 LongTraceRL을 소개한다.

장문맥 추론이란 무엇인가?

장문맥 추론이란 모델이 매우 긴 입력, 예를 들어 여러 문서를 한꺼번에 바탕으로 결론을 도출해야 함을 의미한다. 문제는 관련 데이터가 종종 수많은 무관한 단락 사이에 “희석된다”는 점이다. LongTraceRL은 **검증 가능한 보상을 활용하는 RL(RLVR)**을 사용하여, 약한 디스트랙터와 희소한 피드백 신호에 제약되었던 기존 접근법을 넘어선다.

학습 데이터는 어떻게 만들어지나?

데이터는 두 수준의 디스트랙터를 갖춘 **search 에이전트의 trajectory(궤적)**로부터 구축된다. 첫 번째는 에이전트가 열었지만 인용하지 않은 문서로, 관련성 있어 보였기에 혼란도가 높다. 두 번째는 검색 결과에 나타났지만 에이전트가 한 번도 열지 않은 문서로, 혼란도가 낮다. 이러한 단계화된 접근은 무작위 샘플링이나 단일 검색으로부터의 구성을 능가한다.

루브릭 보상이란 무엇인가?

**루브릭 보상(rubric rewards)**은 각 추론 사슬을 따라 황금 엔티티(gold entities)를 엔티티 수준의 세밀한 프로세스 감독으로 활용한다. 이를 통해 최종 답의 검증뿐 아니라 중간 단계의 안내가 가능해진다. 이 시스템은 **자기-긍정 보상 전략(self-positive rewards)**을 적용하여, 정답일 때에만 추론의 질을 보상함으로써 “reward hacking”을 방지한다.

결과는 어떤가?

테스트는 다섯 개의 장문맥 벤치마크40억~300억 파라미터 규모의 모델을 포괄한다. LongTraceRL은 강력한 베이스라인 대비 일관된 향상을 보이며, 철저하고 근거에 기반한 추론을 촉진한다. 관련 자료는 저자의 GitHub 저장소에서 제공된다.

자주 묻는 질문

단계화된(tiered) 디스트랙터란 무엇인가요?
두 수준의 방해 문서를 말합니다. 에이전트가 열었지만 인용하지 않은 문서(높은 혼란도)와, 검색 결과에 나타났지만 열지 않은 문서(낮은 혼란도)입니다.
몇 개의 벤치마크에서 테스트했나요?
LongTraceRL은 40억~300억 파라미터 규모의 모델에서 다섯 개의 장문맥 벤치마크에 대해 테스트되었으며, 일관된 향상을 보였습니다.