인프라
테스트타임 컴퓨트
추론 단계에서 더 많은 연산을 투입해——답하기 전에 모델이 더 오래 사고하게 하여——정확도를 높이는 방식으로, 현대 추론 모델의 기반이다.
테스트타임 컴퓨트(test-time compute)는 추론 단계에서 더 많은 연산을 투입해——최종 답을 내기 전에 더 길고 신중한 중간 단계를 생성하게 하여——해답의 질을 높이는 방식이다. 추론 시 스케일링 또는 테스트타임 스케일링이라고도 한다.
전통적인 스케일링은 모델과 학습 데이터를 키우는 것이었다. 테스트타임 컴퓨트는 두 번째 축을 연다. 같은 학습된 모델로도 질의마다 더 많은 ‘사고’를 허용하는 것이다. 이는 더 긴 생각의 사슬, 여러 후보 답안을 표본화해 가장 좋은 것을 고르는 방법(자기 일관성, 검증), 또는 해답 트리를 탐색하는 방법으로 이뤄진다. 경험적으로, 더 많은 연산을 투입하면 수학·코드·논리 같은 어려운 문제에서 정확도가 올라가는 경우가 많다.
이 패러다임은 OpenAI o1(2024년)과 함께 주류로 들어왔으며 오늘날 추론 모델의 기반을 이룬다. 대가는 비용과 지연이다. 한 번의 답변이 수 배의 토큰을 소비하고 수 초에서 수 분이 걸릴 수 있다. 2025~2026년에 걸쳐 일정 지점을 넘으면 이득이 포화되므로, 각 연구소는 연산을 과제 난이도에 맞춰 적응적으로 배분하는 연구를 진행하고 있다.