LongTraceRL: 에이전트 trajectory로 장문맥 추론

LongTraceRL은 장문맥 추론을 위한 새로운 강화학습 접근법이다. 단계화된(tiered) 디스트랙터를 갖춘 search 에이전트의 trajectory로부터 학습 데이터를 구축하고, 엔티티 수준의 프로세스 감독과 함께 루브릭 보상을 사용하여, 40억~300억 파라미터 모델에서 다섯 개 벤치마크에 걸쳐 일관된 향상을 달성한다.

논문 arXiv:2605.31584은 **장문맥 추론(long-context reasoning)**의 난제 — 대규모 언어 모델이 방대한 양의 방해 콘텐츠 속에서 핵심 정보를 찾아 연결하기 어려운 상황 — 를 해결하는 강화학습(reinforcement learning, RL) 방법 LongTraceRL을 소개한다.

장문맥 추론이란 무엇인가?

장문맥 추론이란 모델이 매우 긴 입력, 예를 들어 여러 문서를 한꺼번에 바탕으로 결론을 도출해야 함을 의미한다. 문제는 관련 데이터가 종종 수많은 무관한 단락 사이에 “희석된다”는 점이다. LongTraceRL은 **검증 가능한 보상을 활용하는 RL(RLVR)**을 사용하여, 약한 디스트랙터와 희소한 피드백 신호에 제약되었던 기존 접근법을 넘어선다.

학습 데이터는 어떻게 만들어지나?

데이터는 두 수준의 디스트랙터를 갖춘 **search 에이전트의 trajectory(궤적)**로부터 구축된다. 첫 번째는 에이전트가 열었지만 인용하지 않은 문서로, 관련성 있어 보였기에 혼란도가 높다. 두 번째는 검색 결과에 나타났지만 에이전트가 한 번도 열지 않은 문서로, 혼란도가 낮다. 이러한 단계화된 접근은 무작위 샘플링이나 단일 검색으로부터의 구성을 능가한다.

루브릭 보상이란 무엇인가?

**루브릭 보상(rubric rewards)**은 각 추론 사슬을 따라 황금 엔티티(gold entities)를 엔티티 수준의 세밀한 프로세스 감독으로 활용한다. 이를 통해 최종 답의 검증뿐 아니라 중간 단계의 안내가 가능해진다. 이 시스템은 **자기-긍정 보상 전략(self-positive rewards)**을 적용하여, 정답일 때에만 추론의 질을 보상함으로써 “reward hacking”을 방지한다.

결과는 어떤가?

테스트는 다섯 개의 장문맥 벤치마크와 40억~300억 파라미터 규모의 모델을 포괄한다. LongTraceRL은 강력한 베이스라인 대비 일관된 향상을 보이며, 철저하고 근거에 기반한 추론을 촉진한다. 관련 자료는 저자의 GitHub 저장소에서 제공된다.

자주 묻는 질문

단계화된(tiered) 디스트랙터란 무엇인가요?

두 수준의 방해 문서를 말합니다. 에이전트가 열었지만 인용하지 않은 문서(높은 혼란도)와, 검색 결과에 나타났지만 열지 않은 문서(낮은 혼란도)입니다.

몇 개의 벤치마크에서 테스트했나요?

LongTraceRL은 40억~300억 파라미터 규모의 모델에서 다섯 개의 장문맥 벤치마크에 대해 테스트되었으며, 일관된 향상을 보였습니다.

arXiv:2605.31584: LongTraceRL, search 에이전트의 trajectory로부터 장문맥 추론을 학습

장문맥 추론이란 무엇인가?

학습 데이터는 어떻게 만들어지나?

루브릭 보상이란 무엇인가?

결과는 어떤가?

자주 묻는 질문

출처

관련 뉴스