🟡 🤝 Agenti Objavljeno: · 2 min čitanja ·

arXiv:2605.08083: AutoTTS — agentska discovery test-time scaling strategija za samo $39.9 compute

arXiv:2605.08083 ↗

Editorial illustration: 2605.08083: AutoTTS — agentska discovery test-time scaling strategija za samo $39.9 compute

AutoTTS je framework koji automatski otkriva strategije test-time skaliranja umjesto ručnog dizajna heuristika. LLM kontroleri analiziraju reasoning trajektorije i biraju jednu od pet akcija: granaj, nastavi, ispitaj, oreži ili zaustavi. Discovery proces na matematičkim benchmarkovima koštao je samo $39.9 i 160 minuta.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Istraživački tim od trinaest autora — uključujući Tong Zheng, Haolin Liu i Chengsong Huang — predstavio je 11. svibnja 2026. AutoTTS framework koji automatski otkriva strategije test-time skaliranja umjesto ručnog dizajna. Rad je dostupan na arXiv:2605.08083, a kod i podaci bit će otvoreni preko GitHuba.

Što je AutoTTS i kako radi?

AutoTTS formulira test-time scaling kao “controller synthesis over pre-collected reasoning trajectories and probe signals.” LLM kontroler analizira reasoning trajektoriju u svakom koraku i bira jednu od pet akcija: granaj (branch), nastavi (continue), ispitaj (probe), oreži (prune) ili zaustavi (stop). Framework koristi beta parametrizaciju za tractabilan prostor pretrage i fine-grained execution trace feedback za dijagnozu zašto pojedine strategije ne uspijevaju.

Koje rezultate postiže na matematičkim zadacima?

Na matematičkim reasoning benchmarkovima otkrivene strategije postigle su “improved overall accuracy-cost tradeoff” u odnosu na snažne ručno dizajnirane baselinee. Ključno je da se naučene strategije generaliziraju na held-out benchmarke i različite veličine modela — discovery se ne mora ponavljati za svaku novu konfiguraciju.

Koliko košta cijeli discovery proces?

Autori navode da je discovery proces zahtijevao samo $39.9 i 160 minuta computa. To je drastično niže od troškova ručnog inženjerskog dizajna sličnih strategija, gdje istraživački timovi mjesecima eksperimentiraju s heuristikama poput best-of-N samplinga ili Monte Carlo tree searcha.

Što ovo znači za buduće AI agente?

AutoTTS pomiče paradigmu s “inženjer dizajnira reasoning strategiju” na “agenti otkrivaju vlastite strategije.” Za multi-step agentic sustave to znači da svaka klasa zadataka može dobiti vlastitu optimiziranu TTS strategiju kroz automatizirani pipeline. Autori najavljuju open-source izdanje koda kako bi šira zajednica mogla replicirati i graditi nad rezultatima.

Česta pitanja

Što je test-time scaling (TTS)?
Test-time scaling označava tehnike koje povećavaju kvalitetu LLM odgovora ulaganjem više compute resursa u trenutku inferencije — primjerice generiranjem više kandidatskih trajektorija, verifikacijom međukoraka ili adaptivnim odlučivanjem kada produbiti reasoning. Ručno dizajnirane heuristike (best-of-N, MCTS) dominantne su do sada.
Kako se AutoTTS razlikuje od ručno dizajniranih TTS strategija?
Umjesto da inženjer ručno odluči kada granati ili zaustaviti reasoning, AutoTTS formulira problem kao 'kontroler synthesis' nad pre-collected reasoning trajektorijama. Kontroleri biraju pet akcija (branch, continue, probe, prune, stop) s beta parametrizacijom za tractabilan prostor pretrage i fine-grained execution trace feedback.
Je li $39.9 trošak realan za druge primjene?
Cijena vrijedi za discovery proces na matematičkim benchmarkovima opisanim u radu. Otkrivene strategije generalizirale su na held-out benchmarke i različite veličine modela bez novog skupog discoveryja, što sugerira da je $39.9 jednokratna investicija po klasi zadataka.