arXiv:2605.15100 Dual-Dimensional Consistency: 10× redukcija token consumption uz održanu accuracy kroz pet benchmarka
Dual-Dimensional Consistency je novi arXiv paper objavljen 14. svibnja 2026. autora Rongman Xu, Yifei Li, Tianzhe Zhao, Yanrui Wu, Bo Li i Hang Yan koji adresira inference-time scaling efficiency. Framework kombinira Confidence-Weighted Bayesian protokol i Trend-Aware Stratified Pruning — kroz pet benchmarka demonstrira preko 10× redukciju token consumption uz održanu ili povećanu accuracy nad strong baseline-ima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Rongman Xu, Yifei Li, Tianzhe Zhao, Yanrui Wu, Bo Li i Hang Yan objavili su 14. svibnja 2026. na arXivu paper koji adresira jedan od najskupljih trošak frontier LLM deploymenta — inference-time scaling overhead. Tvrdnja: framework postiže preko 10× redukciju token consumption uz održanu ili povećanu accuracy kroz pet benchmarka.
Što je inference-time scaling problem?
Frontier reasoning modeli (OpenAI o1, DeepSeek R1, GPT-5 thinking modes) koriste inference-time scaling — generiraju više paralelnih reasoning paths i biraju najbolji odgovor. Pristup značajno poboljšava accuracy ali stvara dvije skupe dimenzije:
- Sampling width — koliko paralelnih reasoning paths
- Sampling depth — koliko duboko svaka path ide
Naivni pristup množi obje dimenzije — 10 paralelnih × 10× duže = 100× troška u odnosu na single forward pass. Praksu je očito potrebno smanjiti, ali kako bez gubitka accuracy?
Što dual-dimensional consistency konkretno znači?
Većina prethodnih pristupa adresira dimenzije nezavisno: ili se rano terminiraju paths (depth pruning), ili se reducira broj branches (width pruning). Paper argumentira da je to suboptimalno jer izaziva dva failure mode-a:
- Width consensus reinforces halucinacije — ako više paralelnih paths halucinira isti pogrešni odgovor, naivni voting potvrđuje grešku
- Depth pruning prerano — agresivno terminiranje paths-a može odsijeci track koji je pred breakthrough momentom
Dual-dimensional consistency kopplira obje dimenzije kroz dva mehanizma:
- Confidence-Weighted Bayesian protocol — kvantificira slaganje između paralelnih paths uz confidence weights; agreement mora biti stvarno informativan, ne samo numerički
- Trend-Aware Stratified Pruning — prati trajektoriju quality scores kroz depth i odsijeca samo grane koje stagniraju ili degradiraju, čuvajući one koje su pred breakthrough-em
Koje benchmark rezultate paper navodi?
Tim evaluira pristup kroz pet benchmarka s različitim LLM modelima — paper specificira “preko 10× token redukciju” kao headline metric uz “održanu ili povećanu accuracy nad strong baseline-ima”. Konkretne benchmark imena i numerical breakdown nisu dostupni u trenutnom abstract excerptu, ali full paper sadrži detaljnu evaluation tablicu.
Praktične implikacije: ako trenutni reasoning model troši 100k tokena per query za high-difficulty problem, framework bi taj broj sveo na ~10k tokena uz istu accuracy. Za production systems koji obrađuju milijune queries, to je razlika između $$ i $$$$ na monthly bill.
Zašto je ovo važno za production deployment?
Inference-time scaling je tipično “fra cost in lab, prohibitive in production” feature. Frontier modeli ga eksponiraju kao premium tier (OpenAI o1, Claude Opus thinking mode), s povišenim cijenama per token. Operativni inženjeri moraju balansirati accuracy + latency + cost u trojakom trade-offu.
10× token reduction mijenja jednadžbu:
- Cost dimension — postaje praktično za high-volume API services
- Latency dimension — kraći reasoning trace = brži time-to-answer
- Accuracy dimension — održana ili poboljšana, što znači “no compromise” pristup
Položaj u efficient inference istraživanju
Paper se uklapa u 2026. val efficient inference research-a: arXiv FATE adversarial attack reduction (12.5.), GraphFlow formal verification (15.5.), Microsoft AI Delegation reliability (15.5.). Sve dijele zajednički narrative — production AI deployment treba efficient + reliable + transparent pristup, ne brute-force scaling.
Anthropic Mythos Preview, OpenAI GPT-5.5, DeepSeek R2 — sve trenutne frontier inicijative isto tako traže načine kako efikasno koristiti inference-time compute. Dual-dimensional consistency je jedan od najambicioznijih recent papira u tom prostoru zbog 10× claim-a — broj koji, ako se reproducira u independent evaluation, bi mogao postati standardna komponenta production inference stack-a u sljedećih 6-12 mjeseci.
Česta pitanja
- Što dual-dimensional consistency konkretno znači?
- Pristup koppluje sampling width (broj paralelnih reasoning paths) s sampling depth (dužina svake path) umjesto da ih tretira nezavisno; jedna dimenzija mjeri quality konzistentnost (slažu li se različite path-e), druga mjeri trend konzistentnost (ide li reasoning u korisnom smjeru), a obje moraju zadovoljiti pragove prije nego se termination ili pruning aktivira.
- Koje konkretne tehnike framework koristi?
- Confidence-Weighted Bayesian protocol kvantificira slaganje između paralelnih reasoning paths s confidence weights; Trend-Aware Stratified Pruning prati trajektoriju quality scoreova kroz depth i odsijeca grane koje stagniraju; ove dvije komponente zajedno usmjeravaju compute na high-quality reasoning paths i filtriraju halucinacije ranije.