TimeProVe: VLM 동영상 분석 비용 93% 절감

TimeProVe는 2단계 '제안 후 검증' 방식을 도입하여 장시간 동영상에서 VLM 추론을 가속화하는 프레임워크입니다. 고비용 모델 호출을 75% 줄이고 총 추론 비용을 93% 절감하면서, 새로운 OpenTSUBench 벤치마크에서 최강 경쟁 모델을 7.3 퍼센트 포인트 앞섭니다.

고비용 동영상 QA 모델 호출 빈도 4배 감소

연구자 Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le, Srijan Das는 2026년 6월 18일에 TimeProVe를 소개하는 논문을 제출했습니다. 이는 장시간 동영상에서 효율적인 시간적 추론을 위한 프레임워크입니다. 논문은 6월 19일 arXiv에 공개되었습니다(2606.20561).

2단계 ‘제안 후 검증’ 방식의 작동 원리

TimeProVe는 전통적인 비디오 QA 작업을 두 단계로 분할합니다. 경량 모듈이 먼저 고비용 모델을 호출하지 않고 답변 가설을 생성합니다. 그런 다음 ACE(Action-based Candidate Evidence) 모듈이 관련 증거를 선택하여 검증 단계 전용으로 고비용 시각-언어 모델(VLM)에 전달합니다. 이 방식은 매 단계마다 고비용 모델을 호출하는 방법 대비 VLM 호출 횟수를 75% 줄이고 총 추론 비용을 93% 절감합니다.

OpenTSUBench: 일상 활동을 위한 새로운 벤치마크

저자들은 동시에 OpenTSUBench를 발표했습니다. 이는 일상생활 활동(ADL) 카테고리에서 시간적 근거 기반 추론을 위한 벤치마크입니다. 이 벤치마크에서 TimeProVe는 기존 최강 기준 모델을 7.3 퍼센트 포인트 앞서며, 비용 절감이 정확도를 희생시키지 않음을 확인했습니다.

왜 중요한가

기존 장시간 동영상용 VLM 접근법은 비용이 많이 들거나(매 프레임/세그먼트마다 모델 호출), 거친 샘플링으로 정확도를 희생해야 했습니다. TimeProVe는 이 두 가지 목표가 상호 배타적이지 않음을 보여줍니다. 경량 모델과 고비용 모델 사이에서 작업을 지능적으로 분담함으로써, 더 높은 정확도와 극적인 비용 절감을 동시에 달성할 수 있으며, 이는 실제 시스템에서 수 시간 분량의 동영상에 VLM을 실용적으로 적용하는 길을 열어줍니다.

자주 묻는 질문

TimeProVe란 무엇이며 어떻게 작동합니까?

TimeProVe는 경량 모듈이 답변 가설을 생성하고, 고비용 VLM은 ACE(Action-based Candidate Evidence) 모듈을 통한 검증 단계에서만 호출되는 프레임워크입니다. 이를 통해 비용이 많이 드는 모델 호출 횟수가 대폭 줄어듭니다.

OpenTSUBench란 무엇입니까?

OpenTSUBench는 일상생활 활동(ADL) 카테고리에서 시간적 근거 기반 추론을 위한 새로운 벤치마크로, 저자들이 TimeProVe 방법과 함께 발표했습니다.

TimeProVe는 기존 최고 방법을 얼마나 앞섭니까?

TimeProVe는 OpenTSUBench에서 최강 기준 모델보다 7.3 퍼센트 포인트 높은 성능을 달성하면서 동시에 추론 비용을 93% 절감합니다.

arXiv:2606.20561: TimeProVe, 장시간 동영상 추론 비용 93% 절감

고비용 동영상 QA 모델 호출 빈도 4배 감소

2단계 ‘제안 후 검증’ 방식의 작동 원리

OpenTSUBench: 일상 활동을 위한 새로운 벤치마크

왜 중요한가

자주 묻는 질문

출처

관련 뉴스