arXiv:2606.20561: TimeProVe smanjuje troškove zaključivanja nad dugim videozapisima za 93%
TimeProVe je okvir koji ubrzava zaključivanje VLM modela nad dugim videozapisima uvođenjem dvostupanjskog „predloži pa provjeri” pristupa. Smanjuje pozive skupim modelima za 75% i ukupan trošak inferencije za 93%, a na novom OpenTSUBench benchmarku nadmašuje najjačeg konkurenta za 7,3 postotna boda.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Skupi modeli za video QA sada se pozivaju 4× rjeđe
Istraživači Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le i Srijan Das predali su 18. lipnja 2026. rad koji uvodi TimeProVe — okvir za učinkovito temporalno zaključivanje nad dugim videozapisima. Rad je objavljen 19. lipnja na arXiv-u (2606.20561).
Kako funkcionira dvostupanjski „predloži pa provjeri” pristup
TimeProVe dijeli klasičnu Video QA zadaću u dva stupnja. Lagani modul prvo generira hipoteze odgovora bez pozivanja skupog modela. Potom ACE (Action-based Candidate Evidence) modul selektira relevantne dokaze i prosljeđuje ih skupom vizijsko-jezičnom modelu (VLM) isključivo za fazu provjere. Takav pristup smanjuje broj VLM poziva za 75% i ukupan trošak inferencije za 93% u usporedbi s metodama koje skupi model pozivaju za svaki korak.
OpenTSUBench: novi mjerni štap za svakodnevne aktivnosti
Autori istovremeno uvode OpenTSUBench — benchmark za vremenski utemeljeno zaključivanje unutar kategorije Activities of Daily Living (ADL). Na tom benchmarku TimeProVe nadmašuje dosad najjači bazni model za 7,3 postotna boda, što potvrđuje da smanjenje troška ne ide nauštrb točnosti.
Zašto je važno
Dosadašnji VLM pristupi za duge videozapise ili su bili skupi (poziv modela za svaki okvir/segment) ili su žrtvovali točnost grubim uzorkovanjem. TimeProVe pokazuje da se ta dva cilja ne isključuju: pametnom podjelom posla između laganog i skupog modela moguće je postići i bolju točnost i dramatično niže troškove, što otvara put prema praktičnoj primjeni VLM-a nad satnim videozapisima u realnim sustavima.
Česta pitanja
- Što je TimeProVe i kako radi?
- TimeProVe je okvir u kojemu lagani modul generira hipoteze odgovora, a skuplji VLM poziva se samo za provjeru putem ACE (Action-based Candidate Evidence) modula, čime se drastično smanjuje broj skupih poziva.
- Što je OpenTSUBench?
- OpenTSUBench je novi benchmark za vremenski utemeljeno zaključivanje nad svakodnevnim aktivnostima (Activities of Daily Living), koji su autori uveli zajedno s TimeProVe metodom.
- Za koliko TimeProVe nadmašuje dosadašnji najjači pristup?
- TimeProVe postiže 7,3 postotna boda bolji rezultat od najjačeg baznog modela na OpenTSUBench benchmarku, uz istodobno 93-postotno smanjenje troška inferencije.
Izvori
Povezane vijesti
arXiv:2606.20560: DiffusionGemma jednako čitljiv kao Gemma 4 — praznina od 28,6× srušena na 1,1×
arXiv:2606.20543: Prostorno spekulativno dekodiranje ubrzava generiranje slika 13,3×
arXiv:2606.20008: VIMPO — pojačano učenje bez kritičara pobjeđuje GRPO na MATH-500 i AIME