arXiv:2606.23181: DART — 훈련 없이 하이브리드 추론 모델에서 적응형 사고 구현
DART는 AI 모델이 오래 생각해야 하는지 즉시 응답할 수 있는지를 추가 훈련 없이 결정하는 라우팅 방법으로, 사고 토큰 소비를 15~69% 줄이면서 코드 테스트에서 정확도를 최대 +22.5점 향상시킵니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
하이브리드 추론 모델과 토큰 낭비 문제
현대 하이브리드 추론 모델(Claude 3.7 Sonnet 또는 QwQ 등)은 두 가지 작동 모드를 선택할 수 있습니다. 짧은 직접 응답 또는 이른바 사고 토큰(모델에게만 보이는 중간 추론 단계)을 포함한 긴 추론 체인입니다. 문제는 모델이 사소한 질문에도 비용이 드는 사고 토큰을 소모해 불필요하게 추론을 느리게 하고 비용을 높인다는 것입니다.
한국 대학교 및 관련 기관의 연구자들이 추가 훈련 단계 없이 이를 해결하는 DART(Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets)를 발표했습니다.
DART는 모델이 『생각』해야 하는지를 어떻게 결정합니까?
아이디어는 우아하게 단순합니다. DART는 먼저 두 개의 저렴한 『무사고(no-think)』 초안(확장된 추론 없는 짧은 응답)을 생성합니다. 두 응답이 일치하면 모델이 직접 응답을 반환합니다. 불일치하면 DART가 불일치의 엔트로피를 측정하고, 이를 바탕으로 실제로 필요한 사고 예산(더 깊은 추론을 위한 최대 토큰 수)을 동적으로 계산합니다. 불일치가 클수록 예산이 커집니다.
이 접근법은 레이블 데이터나 그래디언트 업데이트가 전혀 필요 없어 0.6B에서 32B 파라미터까지의 모델에 적용 가능하며, 내부 아키텍처에 대한 접근 없이 API 전용 환경에서도 작동합니다.
결과: 더 적은 토큰, 더 높은 정확도
실험 결과는 이 방법을 명확히 지지합니다. 올림피아드 수준 수학 벤치마크에서 DART는 항상 전체 사고 예산을 사용하는 기준 모델 대비 사고 토큰을 15~69% 줄이면서 정확도를 최대 +9.0점 향상시킵니다.
코드 작성 작업에서는 더욱 두드러집니다. 토큰 소비를 51~63% 줄이면서 정확도를 +22.5점 향상시킵니다. 모델이 작업 난이도에 관계없이 동일한 토큰 수를 소모하는 고정 사고 예산 표준 접근법과 비교했을 때 DART는 모든 테스트 시나리오에서 더 나은 정확도 대비 비용 비율을 제공합니다.
프로덕션 시스템에 왜 중요합니까?
사고 토큰은 무료가 아닙니다. API 모델에서는 개당 요금이 부과되고 지연에 직접 영향을 미칩니다. DART는 미세 조정이나 새 모델 없이 비용이 드는 리소스를 쿼리의 난이도가 정당화할 때만 소모하는 추론 시스템으로 가는 길을 엽니다. 코드는 공개적으로 사용 가능하며, 이 방법은 모델에 구애받지 않아 모델 자체를 수정하지 않고도 다양한 하이브리드 추론 시스템에 적용할 수 있습니다.
자주 묻는 질문
- DART에 추가 훈련이나 레이블 데이터가 필요합니까?
- 아니요. DART는 두 개의 저렴한 초안 간 합의에만 기반하는 훈련 불필요 방법으로, 그래디언트 업데이트, 레이블 예제, 모델 내부 가중치 접근 없이 작동합니다.
- DART는 어떤 모델과 크기에서 작동합니까?
- DART는 0.6B에서 32B 파라미터까지 다양한 모델 계열에서 테스트되었으며, 내부 아키텍처 접근 없이 API 전용 환경에서도 작동합니다.