🟡 🤖 Modeli ponedjeljak, 27. travnja 2026. · 3 min čitanja

arXiv:2604.21764: 'Thinking with Reasoning Skills' smanjuje broj reasoning tokena uz veću točnost na ACL 2026 Industry Tracku

arXiv:2604.21764 ↗

ArXiv 2604.21764: 'Thinking with Reasoning Skills' smanjuje broj reasoning tokena uz veću točnost na ACL 2026 Indus...

Zašto je bitno

Tim autora pod vodstvom Guangxianga Zhaoa objavio je 23. travnja 2026. paper 'Thinking with Reasoning Skills: Fewer Tokens, More Accuracy' prihvaćen na ACL 2026 Industry Track. Pristup destilira 'reusable reasoning skills' iz dugog chain-of-thought rasuđivanja i koristi ih kao retrieval-vodeni shortcut za nove probleme, čime značajno smanjuje broj tokena uz poboljšanje točnosti na coding i matematičkim zadacima.

Tim autora Guangxiang Zhao, Qilong Shi, Xusen Xiao, Xiangzheng Zhang, Tong Yang i Lin Sun objavio je 23. travnja 2026. na ArXivu paper pod naslovom “Thinking with Reasoning Skills: Fewer Tokens, More Accuracy” (arXiv:2604.21764). Paper je prihvaćen na 64. ACL — Association for Computational Linguistics — Industry Track koji se održava u sklopu konferencije ACL 2026.

Što je problem koji paper rješava?

Suvremeni reasoning LLM-ovi (modeli poput OpenAI o1, DeepSeek R1, Claude Opus s thinking modom) postižu visoku točnost na složenim zadacima time što generiraju duge chain-of-thought (CoT) tragove — interno rasuđivanje “korak po korak” koje obično troši stotine ili tisuće tokena prije nego što da konačan odgovor. Problem je što model “spend substantial tokens on long intermediate reasoning traces when solving new problems”, što dramatično povećava i cijenu po upitu i latenciju. Za produkcijski deployment ovo je ozbiljna ekonomska barijera — npr. jedan reasoning upit može koštati 10× više nego standardni completion.

Kakvo je rješenje?

Autori predlažu fundamentalnu promjenu paradigme: umjesto reasoning from scratch (rasuđivanje od nule pri svakom upitu), oni “propose to summarize and store reusable reasoning skills distilled from extensive deliberation and trial-and-error exploration”. Ideja je da se nakon što model jednom riješi problem dugim CoT-om, ekstrahira kompaktna ‘vještina’ koja sažima ključne korake rezoniranja. Te vještine se pohranjuju u repozitorij i pri novom upitu sustav najprije dohvaća (retrieve) relevantne vještine i koristi ih kao guidance: “helping the model avoid redundant detours and focus on effective solution paths”.

Strukturirano vs slobodno rasuđivanje

Razlika u odnosu na klasični CoT je u tome što slobodno rasuđivanje uvijek kreće od početka i istražuje sve moguće pristupe — uključujući one koji ne vode nikamo. Strukturirano rasuđivanje vođeno destiliranim vještinama djeluje kao “iskustveni shortcut”: model dobija sažetak prošlog uspjeha i može ga primijeniti odmah. Ovo je konceptualno blisko case-based reasoning pristupima iz klasične AI literature, ali primijenjeno u kontekstu retrieval-augmented LLM inference-a.

Što su konkretni rezultati?

Autori paper testiraju na coding i matematičkim reasoning zadacima. Abstract navodi da pristup “significantly reduces reasoning tokens while improving overall performance” — konkretni postoci smanjenja tokena i povećanja točnosti nisu navedeni u javnom abstractu, već u glavnom tekstu papera. Ekonomska implikacija je jasna: “The resulting lower per-request cost indicates strong practical and economic potential for real-world deployment”.

Zašto je rad važan za industriju?

Prihvaćanje na ACL Industry Track signalizira da peer reviewers ocjenjuju rad kao production-ready, a ne samo akademski zanimljiv. Za kompanije koje servisiraju reasoning modele po API-u (OpenAI, Anthropic, Google, DeepSeek) ovaj pristup može ozbiljno utjecati na profit margine — manji broj tokena po upitu znači jeftiniju operaciju ili bolji omjer cijene i kvalitete. U doba kada reasoning model može trošiti 10× više tokena od običnog modela, čak i 30-40% redukcija predstavlja milijunske uštede za hyperscalere koji obrađuju milijarde upita mjesečno.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.