TimeProVe：VLM视频分析成本降低93%

TimeProVe是一个通过引入两阶段「提议再验证」方法来加速大型视觉语言模型在长视频上推理的框架。它将高成本模型的调用次数减少75%，总推断成本降低93%，并在新的OpenTSUBench基准测试中超越最强竞争对手7.3个百分点。

高成本视频问答模型调用频率降低4倍

研究人员Arkaprava Sinha、Dominick Reilly、Siddharth Krishnan、Hieu Le和Srijan Das于2026年6月18日提交了一篇论文，引入了TimeProVe——一个用于长视频高效时间推理的框架。该论文于6月19日在arXiv上发布（2606.20561）。

两阶段「提议再验证」方法的工作原理

TimeProVe将经典的视频问答任务分为两个阶段。轻量级模块首先在不调用昂贵模型的情况下生成候选答案假设。随后，ACE（基于动作的候选证据）模块筛选相关证据，并将其专门转发给昂贵的视觉语言模型（VLM）进行验证阶段处理。与在每个步骤都调用昂贵模型的方法相比，这种方法将VLM调用次数减少了75%，总推断成本降低了93%。

OpenTSUBench：日常活动推理的新基准

作者同时推出了OpenTSUBench——一个针对日常生活活动（ADL）类别中时间推理的基准测试。在该基准测试中，TimeProVe超越此前最强基线模型7.3个百分点，证实了成本降低并不以牺牲精度为代价。

为何重要

此前用于长视频的视觉语言模型方法要么成本高昂（对每帧/片段都调用模型），要么通过粗粒度采样牺牲精度。TimeProVe表明这两个目标并不互斥：通过在轻量级模型和重量级模型之间智能分配工作，既可以实现更高精度，又可以大幅降低成本，为在实际系统中对长达数小时的视频应用视觉语言模型铺平了道路。

常见问题

TimeProVe是什么，它如何工作？

TimeProVe是一个框架，其中轻量级模块生成候选答案假设，而昂贵的视觉语言模型仅通过ACE（基于动作的候选证据）模块进行验证阶段调用，从而大幅减少高成本模型的调用次数。

什么是OpenTSUBench？

OpenTSUBench是一个针对日常生活活动（ADL）类别中时间推理的新基准测试，由作者与TimeProVe方法同时发布。

TimeProVe超越之前最佳方法多少？

TimeProVe在OpenTSUBench上比最强基线模型高出7.3个百分点，同时将推断成本降低93%。

arXiv:2606.20561: TimeProVe将长视频推理推断成本降低93%

高成本视频问答模型调用频率降低4倍

两阶段「提议再验证」方法的工作原理

OpenTSUBench：日常活动推理的新基准

为何重要

常见问题

来源

相关新闻