🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2606.20561: TimeProVe将长视频推理推断成本降低93%

arXiv:2606.20561 ↗

编辑配图:TimeProVe将长视频推理推断成本降低93%

TimeProVe是一个通过引入两阶段「提议再验证」方法来加速大型视觉语言模型在长视频上推理的框架。它将高成本模型的调用次数减少75%,总推断成本降低93%,并在新的OpenTSUBench基准测试中超越最强竞争对手7.3个百分点。

🤖

本文由人工智能基于一手来源生成。

高成本视频问答模型调用频率降低4倍

研究人员Arkaprava Sinha、Dominick Reilly、Siddharth Krishnan、Hieu Le和Srijan Das于2026年6月18日提交了一篇论文,引入了TimeProVe——一个用于长视频高效时间推理的框架。该论文于6月19日在arXiv上发布(2606.20561)。

两阶段「提议再验证」方法的工作原理

TimeProVe将经典的视频问答任务分为两个阶段。轻量级模块首先在不调用昂贵模型的情况下生成候选答案假设。随后,ACE(基于动作的候选证据)模块筛选相关证据,并将其专门转发给昂贵的视觉语言模型(VLM)进行验证阶段处理。与在每个步骤都调用昂贵模型的方法相比,这种方法将VLM调用次数减少了75%,总推断成本降低了93%

OpenTSUBench:日常活动推理的新基准

作者同时推出了OpenTSUBench——一个针对日常生活活动(ADL)类别中时间推理的基准测试。在该基准测试中,TimeProVe超越此前最强基线模型7.3个百分点,证实了成本降低并不以牺牲精度为代价。

为何重要

此前用于长视频的视觉语言模型方法要么成本高昂(对每帧/片段都调用模型),要么通过粗粒度采样牺牲精度。TimeProVe表明这两个目标并不互斥:通过在轻量级模型和重量级模型之间智能分配工作,既可以实现更高精度,又可以大幅降低成本,为在实际系统中对长达数小时的视频应用视觉语言模型铺平了道路。

常见问题

TimeProVe是什么,它如何工作?
TimeProVe是一个框架,其中轻量级模块生成候选答案假设,而昂贵的视觉语言模型仅通过ACE(基于动作的候选证据)模块进行验证阶段调用,从而大幅减少高成本模型的调用次数。
什么是OpenTSUBench?
OpenTSUBench是一个针对日常生活活动(ADL)类别中时间推理的新基准测试,由作者与TimeProVe方法同时发布。
TimeProVe超越之前最佳方法多少?
TimeProVe在OpenTSUBench上比最强基线模型高出7.3个百分点,同时将推断成本降低93%。