arXiv:2606.26935: CoT 훈련이 행동 예측 강화

arXiv:2606.26935의 Jingyu Liu 외 연구진 연구는 LLM 에이전트의 사고 연쇄(CoT) 훈련 이득이 더 깊은 추론이 아닌 더 강한 직접 행동 예측으로 귀결됨을 보여줍니다. 후기 체크포인트는 행동을 수정하는 빈도가 줄어들며, 행동 토큰에 대한 감독 마스킹은 도메인 외 일반화를 향상시킵니다.

CoT 훈련의 이득은 실제로 어디로 귀결되나요?

Where Do CoT Training Gains Land in LLM based Agents?(arXiv:2606.26935, Jingyu Liu 외, 2026년 6월 25일 제출) 제목의 연구는 사고 연쇄 훈련 이득이 더 깊은 추론이 아닌 직접 행동 예측으로 귀결된다고 주장합니다. CoT(Chain-of-Thought, 사고 연쇄)는 모델이 최종 결정 전에 사고 단계를 생성하는 기법입니다. 저자들은 훈련 체크포인트 전반에 걸쳐 프롬프트 행동(CoT 없음)과 CoT 행동을 비교합니다.

체크포인트 비교 방법

프롬프트 행동의 품질은 훈련 중 크게 향상된 반면, 직접 예측 대비 CoT의 상대적 우위는 안정적으로 유지되었습니다. 즉, CoT 훈련은 사고 연쇄의 우위를 확장하지 않았습니다 — 오히려 모델이 직접 정확한 행동을 맞추는 능력을 향상시켰습니다. 후기 체크포인트에서 모델은 CoT에 반응하여 행동을 수정하는 경향이 줄어들었으며, 이는 초기 판단에 대한 의존도가 증가함을 나타냅니다.

마스킹 개입

저자들은 훈련 중 일부 예시에서 행동 토큰에 대한 감독을 마스킹하는 개입을 테스트합니다. 이 변경은 도메인 외(out-of-domain) 일반화를 향상시켰습니다. 이 발견은 CoT 훈련이 모델에게 문제를 더 잘 추론하도록 가르친다는 널리 퍼진 가정에 의문을 제기합니다 — 대신 모델은 단순히 더 안정적으로 결과를 예측합니다.

자주 묻는 질문

CoT(사고 연쇄)란 무엇인가요?

CoT(Chain-of-Thought, 사고 연쇄)는 모델이 최종 행동 또는 답변 전에 사고 단계를 생성하는 기법입니다.

이 연구는 CoT 훈련에 대해 무엇을 밝히나요?

훈련 이득이 주로 직접 행동 예측을 강화하며, 훈련 중 CoT의 직접 예측 대비 우위는 증가하지 않습니다.

arXiv:2606.26935: CoT 훈련의 이득은 깊은 에이전트 추론이 아닌 행동 예측 강화로 귀결

CoT 훈련의 이득은 실제로 어디로 귀결되나요?

체크포인트 비교 방법

마스킹 개입

자주 묻는 질문

출처

관련 뉴스