arXiv:2606.26502: 모델은 실패 시 포기 안 해

arXiv:2606.26502의 Han-yu Wang 연구는 대형 추론 모델(LRM)이 틀리는 문제에 맞히는 문제보다 더 많은 토큰을 소비한다는 사실을 밝혔습니다. 사람은 어려운 문제에서 포기하는 반대 패턴을 보입니다. 격차는 크며(H-ARC 벤치마크에서 Cohen's d 1.47–3.13), 테스트된 5개 모델 모두 사람과 반대 패턴을 보였습니다.

모델은 왜 틀릴 때 포기하지 않나요?

Humans Disengage, Reasoning Models Persist(arXiv:2606.26502, Han-yu Wang, 2026년 6월 25일 제출) 제목의 연구는 대형 추론 모델(LRM, Large Reasoning Models — 긴 추론 연쇄를 생성하는 모델)이 결국 틀리는 문제에 맞히는 문제보다 더 많은 토큰을 소비한다는 것을 보여줍니다. 사람은 반대입니다: 틀리는 문제에서 포기하기 때문에 더 적은 시간을 소비합니다.

난이도 등록 대 노력 배분

저자는 두 가지 메커니즘을 구분합니다: 등록(응답 시간이 서로 다른 작업에서 난이도와 어떻게 상관되는가)과 배분(노력이 오답에서 증가하는가, 정답에서 증가하는가). 사람과 LRM 모두 작업 전반에 걸쳐 난이도를 유사하게 등록하지만, 동일한 작업 내에서 서로 다른 양상을 보입니다. 격차는 크며: Cohen’s d(효과 크기 측정값)는 H-ARC 벤치마크에서 1.47에서 3.13이며, 테스트된 5개 모델 모두 사람과 반대 패턴을 보였습니다.

추론 효율성에 대한 의미

이 해리는 여러 데이터 세트와 작업의 고정 효과 하에서도 유지되어, 이것이 단순히 난이도의 문제가 아님을 배제합니다. 해석은 다음과 같습니다: LRM은 실패 확률이 높아질수록 불확실성에 이끌려 추론 연쇄를 연장합니다. 실질적 결론은 더 긴 응답이 정확성의 신뢰할 수 있는 신호가 아니라는 것입니다 — 모델이 문제에 막혀 있다는 신호일 수 있습니다.

자주 묻는 질문

사람과 추론 모델의 주요 차이점은 무엇인가요?

사람은 틀리는 문제에서 포기하고 더 적은 시간을 소비하지만, 추론 모델은 실패 확률이 높아질수록 추론 연쇄를 오히려 연장합니다.

Cohen's d란 무엇인가요?

Cohen's d는 효과 크기의 측정값으로, 1.47–3.13 값은 정확한 답변과 부정확한 답변에서의 토큰 소비 차이가 매우 크다는 것을 나타냅니다.

arXiv:2606.26502: 추론 모델은 틀린 문제에 더 많은 토큰 소비 — 포기하는 사람과 반대 패턴

모델은 왜 틀릴 때 포기하지 않나요?

난이도 등록 대 노력 배분

추론 효율성에 대한 의미

자주 묻는 질문

출처

관련 뉴스