arXiv:2606.26502: 추론 모델은 틀린 문제에 더 많은 토큰 소비 — 포기하는 사람과 반대 패턴
arXiv:2606.26502의 Han-yu Wang 연구는 대형 추론 모델(LRM)이 틀리는 문제에 맞히는 문제보다 더 많은 토큰을 소비한다는 사실을 밝혔습니다. 사람은 어려운 문제에서 포기하는 반대 패턴을 보입니다. 격차는 크며(H-ARC 벤치마크에서 Cohen's d 1.47–3.13), 테스트된 5개 모델 모두 사람과 반대 패턴을 보였습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
모델은 왜 틀릴 때 포기하지 않나요?
Humans Disengage, Reasoning Models Persist(arXiv:2606.26502, Han-yu Wang, 2026년 6월 25일 제출) 제목의 연구는 대형 추론 모델(LRM, Large Reasoning Models — 긴 추론 연쇄를 생성하는 모델)이 결국 틀리는 문제에 맞히는 문제보다 더 많은 토큰을 소비한다는 것을 보여줍니다. 사람은 반대입니다: 틀리는 문제에서 포기하기 때문에 더 적은 시간을 소비합니다.
난이도 등록 대 노력 배분
저자는 두 가지 메커니즘을 구분합니다: 등록(응답 시간이 서로 다른 작업에서 난이도와 어떻게 상관되는가)과 배분(노력이 오답에서 증가하는가, 정답에서 증가하는가). 사람과 LRM 모두 작업 전반에 걸쳐 난이도를 유사하게 등록하지만, 동일한 작업 내에서 서로 다른 양상을 보입니다. 격차는 크며: Cohen’s d(효과 크기 측정값)는 H-ARC 벤치마크에서 1.47에서 3.13이며, 테스트된 5개 모델 모두 사람과 반대 패턴을 보였습니다.
추론 효율성에 대한 의미
이 해리는 여러 데이터 세트와 작업의 고정 효과 하에서도 유지되어, 이것이 단순히 난이도의 문제가 아님을 배제합니다. 해석은 다음과 같습니다: LRM은 실패 확률이 높아질수록 불확실성에 이끌려 추론 연쇄를 연장합니다. 실질적 결론은 더 긴 응답이 정확성의 신뢰할 수 있는 신호가 아니라는 것입니다 — 모델이 문제에 막혀 있다는 신호일 수 있습니다.
자주 묻는 질문
- 사람과 추론 모델의 주요 차이점은 무엇인가요?
- 사람은 틀리는 문제에서 포기하고 더 적은 시간을 소비하지만, 추론 모델은 실패 확률이 높아질수록 추론 연쇄를 오히려 연장합니다.
- Cohen's d란 무엇인가요?
- Cohen's d는 효과 크기의 측정값으로, 1.47–3.13 값은 정확한 답변과 부정확한 답변에서의 토큰 소비 차이가 매우 크다는 것을 나타냅니다.