arXiv:2605.19762: ICML 2026 논문——코드가 LLM의 수학적 추론을 향상시키지 않는다고 주장
ICML 2026에 채택된 arXiv 프리프린트는 제어된 사전 학습 실험을 통해 실행 가능한 코드 자체가 LLM 모델의 전반적인 추론 능력을 향상시키지 않음을 보여줍니다. 코드는 프로그래밍을 크게 향상시키지만 표준 모드에서는 수학 작업과 경쟁 관계에 있습니다. 수학의 진정한 발전은 도메인 간 구조화된 추론 흔적(코드-텍스트와 수학-텍스트 혼합)에서 나오며, 전문가 혼합 모델의 메커니즘 분석이 전문가 활성화 패턴에서 이러한 상호작용을 밝혀냅니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
프리프린트 arXiv:2605.19762는 ICML 2026에 채택되어, 제어된 사전 학습 실험을 통해 LLM 커뮤니티에 널리 퍼진 가정을 뒤집습니다. 학습 데이터에 코드를 추가하면 자동으로 모델의 전반적인 추론 능력이 향상된다는 가정입니다.
핵심 주장은 무엇인가?
연구자들은 동일 모델의 여러 변형을 코드, 순수 텍스트, 구조화된 수학적 증명의 비율을 달리한 제어된 혼합 사전 학습 데이터로 학습시켰습니다. 결과는 순수 코드가 프로그래밍을 크게 향상시키지만 전반적인 수학적 추론은 향상시키지 않는다는 것을 보여줍니다. 더 나아가, 코드와 수학은 표준 모드에서 동일한 용량을 두고 경쟁하기 때문에, 코드 비율을 높이면 어려운 수학 작업에서의 성능이 실제로 하락할 수 있습니다.
전문가 혼합 모델의 메커니즘 분석은 무엇을 밝히는가?
팀은 전문가 혼합(MoE) 모델에서 라우팅 활동——어떤 전문가가 어떤 유형의 작업에 활성화되는지——을 추적했습니다. 표준 혼합으로 학습된 모델에서 코딩 전문가와 수학 전문가 사이에 부정적 상호작용이 존재하는 것으로 나타났습니다. 해결책은 도메인 간 구조화된 흔적에서 나옵니다——코드-텍스트와 수학-텍스트 혼합——이는 경쟁적 분배가 아닌 시너지 패턴을 활성화합니다.
사전 학습 실험실에 대한 실용적 시사점은?
권장 사항은 고정된 사전 학습 예산에서 구조화된 수학 흔적(순수 텍스트 증명, 단계별 풀이, 수학-텍스트 혼합) 비율을 높이는 것입니다. 팀은 프로그래밍 능력을 유지하면서 어려운 수학 벤치마크에서 상당한 향상을 보고합니다. 이는 새로운 세대의 프런티어 모델 연구를 진행하는 실험실——Anthropic, OpenAI, Google DeepMind, Meta, Mistral, DeepSeek, Qwen——과 직접 관련이 있으며, 다음 세대 사전 학습 레시피에 영향을 미칠 수 있습니다.
자주 묻는 질문
- 논문의 핵심 주장은 무엇입니까?
- 논문은 사전 학습에 코드만 추가하면 프로그래밍 능력은 향상되지만 전반적인 수학적 추론은 개선되지 않는다고 주장합니다. 수학의 진정한 발전은 코드와 텍스트, 또는 수학과 텍스트를 결합한 구조화된 추론 흔적——도메인 간 혼합, 순수 코드가 아닌——이 필요합니다.
- 메커니즘 분석은 무엇을 보여줍니까?
- 연구자들은 전문가 혼합(MoE) 모델에서 라우팅 활동——어떤 전문가가 어떤 유형의 작업에 활성화되는지——을 추적했습니다. 표준 혼합으로 학습된 모델에서 코딩 전문가와 수학 전문가가 모델 내 동일한 용량을 부분적으로 경쟁하는 것으로 나타났으며, 이것이 표준 사전 학습의 부정적 상호작용을 설명합니다.
- 실용적인 권장 사항은 무엇입니까?
- 팀은 고정된 사전 학습 예산에서 구조화된 수학 흔적(순수 텍스트 증명, 단계별 풀이, 수학-텍스트 혼합) 비율을 높일 것을 권장합니다. 결과는 프로그래밍 능력을 유지하면서 어려운 수학 벤치마크에서 상당한 향상을 보였습니다.