TimeProVe: 93% jeftinija VLM analiza videa

TimeProVe je okvir koji ubrzava zaključivanje VLM modela nad dugim videozapisima uvođenjem dvostupanjskog „predloži pa provjeri” pristupa. Smanjuje pozive skupim modelima za 75% i ukupan trošak inferencije za 93%, a na novom OpenTSUBench benchmarku nadmašuje najjačeg konkurenta za 7,3 postotna boda.

Skupi modeli za video QA sada se pozivaju 4× rjeđe

Istraživači Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le i Srijan Das predali su 18. lipnja 2026. rad koji uvodi TimeProVe — okvir za učinkovito temporalno zaključivanje nad dugim videozapisima. Rad je objavljen 19. lipnja na arXiv-u (2606.20561).

Kako funkcionira dvostupanjski „predloži pa provjeri” pristup

TimeProVe dijeli klasičnu Video QA zadaću u dva stupnja. Lagani modul prvo generira hipoteze odgovora bez pozivanja skupog modela. Potom ACE (Action-based Candidate Evidence) modul selektira relevantne dokaze i prosljeđuje ih skupom vizijsko-jezičnom modelu (VLM) isključivo za fazu provjere. Takav pristup smanjuje broj VLM poziva za 75% i ukupan trošak inferencije za 93% u usporedbi s metodama koje skupi model pozivaju za svaki korak.

OpenTSUBench: novi mjerni štap za svakodnevne aktivnosti

Autori istovremeno uvode OpenTSUBench — benchmark za vremenski utemeljeno zaključivanje unutar kategorije Activities of Daily Living (ADL). Na tom benchmarku TimeProVe nadmašuje dosad najjači bazni model za 7,3 postotna boda, što potvrđuje da smanjenje troška ne ide nauštrb točnosti.

Zašto je važno

Dosadašnji VLM pristupi za duge videozapise ili su bili skupi (poziv modela za svaki okvir/segment) ili su žrtvovali točnost grubim uzorkovanjem. TimeProVe pokazuje da se ta dva cilja ne isključuju: pametnom podjelom posla između laganog i skupog modela moguće je postići i bolju točnost i dramatično niže troškove, što otvara put prema praktičnoj primjeni VLM-a nad satnim videozapisima u realnim sustavima.

Česta pitanja

Što je TimeProVe i kako radi?

TimeProVe je okvir u kojemu lagani modul generira hipoteze odgovora, a skuplji VLM poziva se samo za provjeru putem ACE (Action-based Candidate Evidence) modula, čime se drastično smanjuje broj skupih poziva.

Što je OpenTSUBench?

OpenTSUBench je novi benchmark za vremenski utemeljeno zaključivanje nad svakodnevnim aktivnostima (Activities of Daily Living), koji su autori uveli zajedno s TimeProVe metodom.

Za koliko TimeProVe nadmašuje dosadašnji najjači pristup?

TimeProVe postiže 7,3 postotna boda bolji rezultat od najjačeg baznog modela na OpenTSUBench benchmarku, uz istodobno 93-postotno smanjenje troška inferencije.

arXiv:2606.20561: TimeProVe smanjuje troškove zaključivanja nad dugim videozapisima za 93%

Skupi modeli za video QA sada se pozivaju 4× rjeđe

Kako funkcionira dvostupanjski „predloži pa provjeri” pristup

OpenTSUBench: novi mjerni štap za svakodnevne aktivnosti

Zašto je važno

Česta pitanja

Izvori

Povezane vijesti