arXiv:2605.08083: AutoTTS — agentska discovery test-time scaling strategija za samo $39.9 compute
AutoTTS je framework koji automatski otkriva strategije test-time skaliranja umjesto ručnog dizajna heuristika. LLM kontroleri analiziraju reasoning trajektorije i biraju jednu od pet akcija: granaj, nastavi, ispitaj, oreži ili zaustavi. Discovery proces na matematičkim benchmarkovima koštao je samo $39.9 i 160 minuta.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživački tim od trinaest autora — uključujući Tong Zheng, Haolin Liu i Chengsong Huang — predstavio je 11. svibnja 2026. AutoTTS framework koji automatski otkriva strategije test-time skaliranja umjesto ručnog dizajna. Rad je dostupan na arXiv:2605.08083, a kod i podaci bit će otvoreni preko GitHuba.
Što je AutoTTS i kako radi?
AutoTTS formulira test-time scaling kao “controller synthesis over pre-collected reasoning trajectories and probe signals.” LLM kontroler analizira reasoning trajektoriju u svakom koraku i bira jednu od pet akcija: granaj (branch), nastavi (continue), ispitaj (probe), oreži (prune) ili zaustavi (stop). Framework koristi beta parametrizaciju za tractabilan prostor pretrage i fine-grained execution trace feedback za dijagnozu zašto pojedine strategije ne uspijevaju.
Koje rezultate postiže na matematičkim zadacima?
Na matematičkim reasoning benchmarkovima otkrivene strategije postigle su “improved overall accuracy-cost tradeoff” u odnosu na snažne ručno dizajnirane baselinee. Ključno je da se naučene strategije generaliziraju na held-out benchmarke i različite veličine modela — discovery se ne mora ponavljati za svaku novu konfiguraciju.
Koliko košta cijeli discovery proces?
Autori navode da je discovery proces zahtijevao samo $39.9 i 160 minuta computa. To je drastično niže od troškova ručnog inženjerskog dizajna sličnih strategija, gdje istraživački timovi mjesecima eksperimentiraju s heuristikama poput best-of-N samplinga ili Monte Carlo tree searcha.
Što ovo znači za buduće AI agente?
AutoTTS pomiče paradigmu s “inženjer dizajnira reasoning strategiju” na “agenti otkrivaju vlastite strategije.” Za multi-step agentic sustave to znači da svaka klasa zadataka može dobiti vlastitu optimiziranu TTS strategiju kroz automatizirani pipeline. Autori najavljuju open-source izdanje koda kako bi šira zajednica mogla replicirati i graditi nad rezultatima.
Česta pitanja
- Što je test-time scaling (TTS)?
- Test-time scaling označava tehnike koje povećavaju kvalitetu LLM odgovora ulaganjem više compute resursa u trenutku inferencije — primjerice generiranjem više kandidatskih trajektorija, verifikacijom međukoraka ili adaptivnim odlučivanjem kada produbiti reasoning. Ručno dizajnirane heuristike (best-of-N, MCTS) dominantne su do sada.
- Kako se AutoTTS razlikuje od ručno dizajniranih TTS strategija?
- Umjesto da inženjer ručno odluči kada granati ili zaustaviti reasoning, AutoTTS formulira problem kao 'kontroler synthesis' nad pre-collected reasoning trajektorijama. Kontroleri biraju pet akcija (branch, continue, probe, prune, stop) s beta parametrizacijom za tractabilan prostor pretrage i fine-grained execution trace feedback.
- Je li $39.9 trošak realan za druge primjene?
- Cijena vrijedi za discovery proces na matematičkim benchmarkovima opisanim u radu. Otkrivene strategije generalizirale su na held-out benchmarke i različite veličine modela bez novog skupog discoveryja, što sugerira da je $39.9 jednokratna investicija po klasi zadataka.
Izvori
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije