arXiv:2606.25524: Cliff 토큰 — 수학적 추론 실패를 유발하는 단일 토큰
Cliff 토큰은 LLM 출력에서 수학적 추론 성공 확률이 급격히 떨어지는 단일 토큰입니다. 연구진은 탐지 방법을 개발하고, 첫 번째 cliff 토큰 제거 시 정확도가 거의 완벽한 수준으로 회복되며 Cliff-DPO 학습으로 +6.6 퍼센트포인트 향상됨을 보였습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Cliff 토큰이란 무엇입니까?
Cliff 토큰 — 말 그대로 절벽 토큰 — 은 언어 모델의 chain-of-thought 출력(모델이 문제를 풀기 위해 사용하는 중간 추론 단계의 시퀀스)에서 정확한 답에 도달할 확률이 급격히 떨어지는 단일 토큰입니다. 연구자 Jaeyong Ko, Pilsung Kang, Yukyung Lee는 각 토큰 전후의 응답 성공률을 비교하는 이중 비율 z-검정을 활용한 통계적 분석으로 이러한 결정적 지점을 식별했습니다.
단 하나의 토큰이 왜 그토록 중요합니까?
이 연구는 7개 모델과 3개의 수학 벤치마크 — GSM1K, MATH500, AIME 2025 — 를 대상으로 수행되었습니다. 결과는 놀랍습니다. 첫 번째 cliff 토큰만 제거하고 다시 샘플링했을 때 pass@64(64번 시도 중 정확한 답 비율)가 모델에 따라 원래 0.71~1.00에서 1.0으로 회복되었습니다. 이 차이는 무시할 수 없습니다. 불안정한 추론 영역에서 완전히 신뢰할 수 있는 영역으로의 전환이기 때문입니다.
분류 체계와 적용
저자들은 cliff 토큰을 세 가지 유형으로 구분합니다. 결정론적(오류가 불가피), 불확실(모델이 망설임), 무작위 실패(샘플링 문제)입니다. 핵심 발견: 불확실 및 무작위 실패 cliff 토큰 최적화는 추론을 개선하는 반면, 결정론적 토큰은 학습에 반응하지 않습니다. 이를 바탕으로 개발된 Cliff-DPO — 선호도 학습 기법 — 는 모델 아키텍처 변경 없이 GSM8K 데이터셋에서 +6.6 퍼센트포인트의 정확도 향상을 달성합니다.
자주 묻는 질문
- Cliff 토큰이란 무엇이며 왜 중요합니까?
- Cliff 토큰은 모델의 chain-of-thought 출력에서 정확한 완료 확률이 절벽처럼 급격히 떨어지는 단일 토큰입니다. 이 지점을 파악하면 수학적 추론 실패의 정확한 메커니즘을 알 수 있습니다.
- Cliff-DPO는 어떻게 모델 정확도를 향상시킵니까?
- Cliff-DPO는 cliff 토큰이 있는 예시와 없는 예시로 모델을 학습시키는 선호도 최적화 기법입니다. 결과적으로 GSM8K 데이터셋에서 최대 +6.6 퍼센트포인트의 정확도 향상을 달성합니다.