DART: 훈련 없는 적응형 사고 예산

DART는 AI 모델이 오래 생각해야 하는지 즉시 응답할 수 있는지를 추가 훈련 없이 결정하는 라우팅 방법으로, 사고 토큰 소비를 15~69% 줄이면서 코드 테스트에서 정확도를 최대 +22.5점 향상시킵니다.

하이브리드 추론 모델과 토큰 낭비 문제

현대 하이브리드 추론 모델(Claude 3.7 Sonnet 또는 QwQ 등)은 두 가지 작동 모드를 선택할 수 있습니다. 짧은 직접 응답 또는 이른바 사고 토큰(모델에게만 보이는 중간 추론 단계)을 포함한 긴 추론 체인입니다. 문제는 모델이 사소한 질문에도 비용이 드는 사고 토큰을 소모해 불필요하게 추론을 느리게 하고 비용을 높인다는 것입니다.

한국 대학교 및 관련 기관의 연구자들이 추가 훈련 단계 없이 이를 해결하는 DART(Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets)를 발표했습니다.

DART는 모델이 『생각』해야 하는지를 어떻게 결정합니까?

아이디어는 우아하게 단순합니다. DART는 먼저 두 개의 저렴한 『무사고(no-think)』 초안(확장된 추론 없는 짧은 응답)을 생성합니다. 두 응답이 일치하면 모델이 직접 응답을 반환합니다. 불일치하면 DART가 불일치의 엔트로피를 측정하고, 이를 바탕으로 실제로 필요한 사고 예산(더 깊은 추론을 위한 최대 토큰 수)을 동적으로 계산합니다. 불일치가 클수록 예산이 커집니다.

이 접근법은 레이블 데이터나 그래디언트 업데이트가 전혀 필요 없어 0.6B에서 32B 파라미터까지의 모델에 적용 가능하며, 내부 아키텍처에 대한 접근 없이 API 전용 환경에서도 작동합니다.

결과: 더 적은 토큰, 더 높은 정확도

실험 결과는 이 방법을 명확히 지지합니다. 올림피아드 수준 수학 벤치마크에서 DART는 항상 전체 사고 예산을 사용하는 기준 모델 대비 사고 토큰을 15~69% 줄이면서 정확도를 최대 +9.0점 향상시킵니다.

코드 작성 작업에서는 더욱 두드러집니다. 토큰 소비를 51~63% 줄이면서 정확도를 +22.5점 향상시킵니다. 모델이 작업 난이도에 관계없이 동일한 토큰 수를 소모하는 고정 사고 예산 표준 접근법과 비교했을 때 DART는 모든 테스트 시나리오에서 더 나은 정확도 대비 비용 비율을 제공합니다.

프로덕션 시스템에 왜 중요합니까?

사고 토큰은 무료가 아닙니다. API 모델에서는 개당 요금이 부과되고 지연에 직접 영향을 미칩니다. DART는 미세 조정이나 새 모델 없이 비용이 드는 리소스를 쿼리의 난이도가 정당화할 때만 소모하는 추론 시스템으로 가는 길을 엽니다. 코드는 공개적으로 사용 가능하며, 이 방법은 모델에 구애받지 않아 모델 자체를 수정하지 않고도 다양한 하이브리드 추론 시스템에 적용할 수 있습니다.

자주 묻는 질문

DART에 추가 훈련이나 레이블 데이터가 필요합니까?

아니요. DART는 두 개의 저렴한 초안 간 합의에만 기반하는 훈련 불필요 방법으로, 그래디언트 업데이트, 레이블 예제, 모델 내부 가중치 접근 없이 작동합니다.

DART는 어떤 모델과 크기에서 작동합니까?

DART는 0.6B에서 32B 파라미터까지 다양한 모델 계열에서 테스트되었으며, 내부 아키텍처 접근 없이 API 전용 환경에서도 작동합니다.

arXiv:2606.23181: DART — 훈련 없이 하이브리드 추론 모델에서 적응형 사고 구현

하이브리드 추론 모델과 토큰 낭비 문제

DART는 모델이 『생각』해야 하는지를 어떻게 결정합니까?

결과: 더 적은 토큰, 더 높은 정확도

프로덕션 시스템에 왜 중요합니까?

자주 묻는 질문

출처

관련 뉴스