arXiv:2605.02572: 긴 호라이즌이 LLM 학습을 불안정하게 만든다 — ICML 2026 논문, '호라이즌 일반화'를 해결책으로 제시
ICML 2026 채택 논문이 탐색 및 신용 할당 문제로 인해 과제 호라이즌 길이 증가가 심각한 LLM 학습 불안정을 유발한다는 것을 실증적으로 증명합니다. 제안된 해결책: 학습 시 호라이즌을 단축하고 추론 시 명시적인 '호라이즌 일반화' 메커니즘을 사용하는 방식입니다. 이 논문은 프론티어 모델 학습에서 과제 호라이즌 스케일링에 관한 최초의 실증적 규칙을 수립합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
ICML 2026에 채택된 새 arXiv 프리프린트(2605.02572)는 에이전트 및 추론 프론티어 모델 학습의 핵심 과제 중 하나에 대한 최초의 체계적 실증 규칙을 수립합니다. 과제 호라이즌(보상 신호 전 단계 수)이 증가함에 따라 나타나는 불안정성입니다. 주요 발견: 긴 호라이즌은 두 가지 별개의 메커니즘——탐색과 신용 할당——을 통해 학습을 불안정하게 만듭니다.
불안정화의 실증적 메커니즘은 무엇입니까?
저자들은 두 가지 독립적인 절제 실험을 중심으로 논문을 구성합니다. 첫 번째 실험은 탐색 문제를 분리합니다: 호라이즌이 증가할수록 모델이 성공적인 경로를 무작위로 만날 확률이 기하급수적으로 감소합니다. 이는 보상 신호가 희소해지고 그래디언트가 얕아진다는 것을 의미합니다——모델은 훈련 단계당 유익한 업데이트를 적게 받습니다.
두 번째 절제는 신용 할당 문제에 초점을 맞춥니다: 보상이 긴 호라이즌 후에 도착하면 그래디언트는 많은 단계를 통해 역전파되어야 합니다. 단계당 그래디언트 분산은 호라이즌 길이에 따라 증가합니다——실질적으로 학습의 그래디언트 노이즈가 일정 길이를 넘으면 신호를 압도하고, 모델은 수렴을 멈추거나 진동하기 시작합니다.
이 두 문제는 개별적으로는 RL 문헌에서 알려져 있습니다. 논문의 기여는 실증적 정량화에 있습니다——저자들은 모델 크기와 호라이즌 길이에 따라 특정 LLM 학습이 언제 불안정해지기 시작하는지 예측하는 스케일링 규칙을 제공합니다.
‘호라이즌 일반화’ 해결책이란 무엇입니까?
제안된 해결책은 방법론적으로 최소화되어 있지만 개념적으로 중요합니다: 신용 할당 노이즈가 적은 짧은 호라이즌에서 모델을 학습시킨 후, 추론 시 명시적인 호라이즌 일반화 메커니즘을 활성화합니다——학습 중 본 것보다 더 긴 경로에 동일한 추론 패턴을 적용하는 모델의 능력입니다. 이는 시퀀스-투-시퀀스 학습의 길이 일반화와 유사하지만 다단계 추론 및 에이전트 시퀀스에 적용됩니다.
실질적 함의: 에이전트 모델을 학습하는 팀(Anthropic, OpenAI, Google DeepMind)은 1,000단계 시퀀스에서 직접 학습할 필요가 없을 수 있습니다; 대신 50~100단계에서 학습하고 호라이즌 일반화를 추론 시 기술로 사용할 수 있습니다.
이것이 프론티어 모델 설계에 중요한 이유는?
이 논문은 실제 배포에서 긴 에이전트 시퀀스가 증가하면서 더욱 관련성이 높아지는 문제를 다룹니다——Claude Code, Devin, OpenAI Codex 등의 도구는 단일 에이전트 세션에서 정기적으로 200~500단계를 실행합니다. 논문의 발견이 확인된다면, 프론티어 연구소들은 에이전트 스케일링의 일부를 “더욱 긴 호라이즌에서 학습”에서 “짧게 학습하고 길게 일반화” 방식으로 전환할 가능성이 있습니다.
한계: 이 논문은 주로 실증적(불안정화가 정확히 어디서 발생하는지에 대한 닫힌 형태의 이론적 경계 없음)이며, 특정 RL 설정에 초점을 맞춥니다. 대규모 상업 프론티어 모델 학습 파이프라인 맥락에서 이러한 규칙을 검증하는 것이 논리적인 다음 단계입니다——경쟁상의 이유로 미발표로 남을 가능성이 높습니다.
자주 묻는 질문
- LLM 학습에서 '과제 호라이즌'이란 무엇입니까?
- 과제 호라이즌은 모델이 보상 신호를 받기 전에 수행해야 하는 단계 수입니다. 예를 들어 과제가 성공하거나 실패하기 전의 에이전트 행동 수입니다. 호라이즌이 길수록 어떤 단계가 성공에 기여했는지 모델이 학습하기 어렵습니다(신용 할당 문제).
- 긴 호라이즌이 왜 학습을 불안정하게 합니까?
- 실증적 증거는 두 가지 원인을 밝힙니다: 탐색 문제(모델이 성공적인 경로를 우연히 만나는 경우가 드묾)와 신용 할당 문제(성공이 왔을 때 그래디언트가 많은 단계를 통해 역전파되어야 하며 노이즈와 분산이 발생). 그래디언트 분산은 호라이즌 길이에 따라 증가합니다.
- '호라이즌 일반화' 해결책이란 무엇입니까?
- 신용 할당 노이즈가 적은 짧은 호라이즌에서 모델을 학습시킨 후, 추론 시 명시적인 '호라이즌 일반화'를 활성화하는 방식입니다. 이는 학습 중에 본 것보다 더 긴 시퀀스에 동일한 추론 패턴을 적용하는 모델의 능력입니다.