🟡 🤖 모델 게시일: · 3 분 읽기 ·

ReContext, 재훈련 없이 128K 컨텍스트 창 활용도를 개선

에디토리얼 일러스트레이션: 언어 모델을 위한 128K 토큰의 긴 컨텍스트에서 증거 재현

일리노이 대학교 연구자들이 ReContext를 개발했습니다. 긴 컨텍스트 창에서 관련 증거를 재귀적으로 재현하여 세 가지 LLM 아키텍처에 걸쳐 여덟 개의 벤치마크에서 일관되게 성능을 향상시키는 추론 기법으로, 재훈련이 필요 없습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

현대 언어 모델은 128,000 토큰의 컨텍스트 창을 지원합니다. 책 전체, 방대한 코드베이스, 또는 몇 주간의 이메일 교신을 담기에 충분합니다. 그러나 기술적 역량에 관계없이, 일리노이 대학교 연구자들은 근본적인 문제를 문서화했습니다. 모델 자체가 이러한 창 내에서 사용 가능한 정보를 효과적으로 활용하는 방법을 모릅니다.

Yanjun Zhao, Ruizhong Qiu, Tianxin Wei, Yuanchen Bei, Zhining Liu, Lingjie Chen, Ismini Lourentzou, Hanghang Tong, Jingrui He의 「ReContext: Recursive Evidence Replay as LLM Harness for Long-Context Reasoning」은 모델 파라미터를 단 하나도 변경하지 않고 추론 단계 솔루션을 제공합니다.

LLM이 손닿는 곳의 증거를 왜 무시하나요?

이 문제는 긴 컨텍스트 연구에서 잘 알려져 있습니다. 관련 증거가 컨텍스트 창의 맨 처음이나 맨 끝에 배치되지 않으면 LLM은 그것에 덜 주의를 기울이거나 완전히 무시하는 경향이 있습니다. 문헌에서 「중간에서 길을 잃음」이라고 불리는 현상은 공식적으로 128K 토큰을 지원하는 모델에서도 여전히 존재합니다.

기존 해결책은 주로 문제를 우회했습니다. 검색 증강 생성(RAG)은 선택된 단락만 컨텍스트에 삽입하여 검색 시스템이 가져오지 않은 정보를 잃습니다. 컨텍스트 압축 및 단축은 입력을 줄이지만 관련 세부 사항을 제거할 위험이 있습니다. ReContext는 이러한 접근 방식을 모두 사용하지 않습니다.

재귀적 증거 재현은 어떻게 작동하나요?

ReContext는 추론 단계에서만 작동합니다. 이 기법은 모델이 자체적으로 생성하는 관련성 신호—구체적으로 어텐션 분포와 확률 신호—를 사용하여 주어진 쿼리에 대해 긴 컨텍스트의 어떤 부분이 가장 관련성이 있는지 식별합니다.

이러한 신호를 기반으로 쿼리 조건부 증거 집합이 구성됩니다. 그런 다음 이 증거가 최종 답변 생성 직전에 재귀적으로 재현됩니다. 결과적으로 모델은 생성 시점에 어텐션의 전경에 가장 관련성 있는 정보가 강조된 상태에서 원래의 전체 컨텍스트가 손상되지 않고 사용 가능합니다.

외부 데이터베이스, 검색 시스템, 단축 없음. 이론적 기반은 연상 기억에서 가져옵니다. 부분적인 단서를 기반으로 기억이 어떻게 검색되는지 설명하는 인지 과학의 한 분야. 모델의 컨텍스트 창은 저장 공간으로 처리되고, 어텐션 메커니즘은 쿼리를 저장된 패턴과 연결하는 연상 프로세서로 취급됩니다.

세 가지 모델과 여덟 개의 벤치마크에서 일관된 성능 향상

연구팀은 Qwen3-4B, Qwen3-8B, Llama3-8B—크기와 출처가 다른 세 가지 아키텍처—에서 128K 토큰에서의 긴 컨텍스트 평가를 위한 여덟 개의 벤치마크에 걸쳐 ReContext를 평가했습니다.

결과는 세 가지 모델 모두에서 일관된 증거 활용도 향상을 보여줍니다. 실용적으로 특히 중요한 점은 ReContext가 하나의 아키텍처의 특정 특성을 활용하지 않는다는 것입니다. 더 작은 4B 모델이든 8B 모델이든 관계없이 성능 향상을 달성합니다. 이는 컨텍스트 창의 불충분한 활용 문제가 체계적임을 시사합니다. 그리고 모델 파라미터에 개입 없이 추론 알고리즘 수준에서 해결할 수 있습니다.

ReContext는 세 가지 모델과 모든 벤치마크에서 가장 낮은 평균 성능 순위를 가지며, 저자들은 이를 주요 집계 지표로 제시합니다. 구현은 GitHub에서 공개적으로 이용 가능합니다.

재훈련 비용 없는 실용적 적용 가능성

긴 컨텍스트로 시스템을 구축하는 엔지니어—문서 요약 및 법률 분석에서 멀티홉 질의응답 및 코드 리뷰 에이전트까지—에게 ReContext는 드문 비율을 제공합니다. 재훈련 비용 없는 상당한 성능 향상.

이 기법은 인프라 변경, 파인튜닝, 외부 벡터 데이터베이스 없이 호환 가능한 LLM 위의 추론 레이어로 적용할 수 있습니다. 재훈련 비용이 엄청나거나 기본 모델 파라미터를 변경하는 것이 허용되지 않는 환경에서 이는 구체적인 이점입니다.

이것이 열어주는 더 넓은 맥락은 현재 LLM의 얼마나 많은 능력이 컨텍스트 창 활용 문제 뒤에 숨겨져 있는가에 대한 질문입니다. 동일한 모델이 추론 시 더 스마트한 증거 배열만으로도 더 나은 결과를 달성한다면, 지금까지 전적으로 파라미터 스케일링에 귀속되었던 잠재력은 추가적인 훈련 파라미터 없이 추론 전략의 스케일링에도 있습니다.

자주 묻는 질문

ReContext는 검색 증강 생성(RAG) 접근 방식과 어떻게 다른가요?
ReContext는 외부 저장소나 검색 시스템을 사용하지 않습니다. 컨텍스트를 단축하거나 잘라내지 않고 기존 컨텍스트 창 내에서 증거를 재귀적으로 재구성하기 위해 모델 자체의 관련성 신호를 사용합니다.
ReContext는 어떤 모델과 벤치마크에서 테스트되었나요?
이 기법은 128K 토큰에서 긴 컨텍스트 평가를 위한 여덟 개의 벤치마크에 걸쳐 Qwen3-4B, Qwen3-8B, Llama3-8B에서 평가되었으며, 세 가지 아키텍처 모두에서 일관된 개선을 보였습니다.
ReContext는 모델 파라미터 변경 없이 적용 가능한가요?
예 — ReContext는 완전히 훈련이 필요 없는 추론 기법입니다. 파라미터 변경, 파인튜닝, 아키텍처 수정 없이 기존 모델 위의 레이어로 적용됩니다.