Što je 'overthinking' problem kod reasoning LLM-ova?

Reasoning modeli poput OpenAI o1 ili DeepSeek R1 pri rješavanju novih problema generiraju vrlo duge chain-of-thought tragove (često tisuće tokena) jer iznova istražuju iste pristupe i slijepe ulice. Ovo dramatično povećava trošak inference-a i latenciju.

Kako pristup u paperu rješava problem?

Autori predlažu ekstrakciju i pohranu 'reusable reasoning skills' destiliranih iz prethodnih dugih rasuđivanja. Pri inference-u, model dohvaća relevantne vještine za upit i koristi ih kao guidance umjesto rasuđivanja od nule, čime izbjegava redundantne detoure.

Što znači 'ACL Industry Track'?

ACL (Association for Computational Linguistics) je top NLP konferencija. Industry Track je posebna sekcija za radove iz industrije s fokusom na praktičnu primjenu — što znači da je rad ocijenjen kao deployment-ready, a ne samo akademski.

arXiv:2604.21764: reasoning skills za manje tokena na ACL 2026

Tim autora Guangxiang Zhao, Qilong Shi, Xusen Xiao, Xiangzheng Zhang, Tong Yang i Lin Sun objavio je 23. travnja 2026. na ArXivu paper pod naslovom “Thinking with Reasoning Skills: Fewer Tokens, More Accuracy” (arXiv:2604.21764). Paper je prihvaćen na 64. ACL — Association for Computational Linguistics — Industry Track koji se održava u sklopu konferencije ACL 2026.

Što je problem koji paper rješava?

Suvremeni reasoning LLM-ovi (modeli poput OpenAI o1, DeepSeek R1, Claude Opus s thinking modom) postižu visoku točnost na složenim zadacima time što generiraju duge chain-of-thought (CoT) tragove — interno rasuđivanje “korak po korak” koje obično troši stotine ili tisuće tokena prije nego što da konačan odgovor. Problem je što model “spend substantial tokens on long intermediate reasoning traces when solving new problems”, što dramatično povećava i cijenu po upitu i latenciju. Za produkcijski deployment ovo je ozbiljna ekonomska barijera — npr. jedan reasoning upit može koštati 10× više nego standardni completion.

Kakvo je rješenje?

Autori predlažu fundamentalnu promjenu paradigme: umjesto reasoning from scratch (rasuđivanje od nule pri svakom upitu), oni “propose to summarize and store reusable reasoning skills distilled from extensive deliberation and trial-and-error exploration”. Ideja je da se nakon što model jednom riješi problem dugim CoT-om, ekstrahira kompaktna ‘vještina’ koja sažima ključne korake rezoniranja. Te vještine se pohranjuju u repozitorij i pri novom upitu sustav najprije dohvaća (retrieve) relevantne vještine i koristi ih kao guidance: “helping the model avoid redundant detours and focus on effective solution paths”.

Strukturirano vs slobodno rasuđivanje

Razlika u odnosu na klasični CoT je u tome što slobodno rasuđivanje uvijek kreće od početka i istražuje sve moguće pristupe — uključujući one koji ne vode nikamo. Strukturirano rasuđivanje vođeno destiliranim vještinama djeluje kao “iskustveni shortcut”: model dobija sažetak prošlog uspjeha i može ga primijeniti odmah. Ovo je konceptualno blisko case-based reasoning pristupima iz klasične AI literature, ali primijenjeno u kontekstu retrieval-augmented LLM inference-a.

Što su konkretni rezultati?

Autori paper testiraju na coding i matematičkim reasoning zadacima. Abstract navodi da pristup “significantly reduces reasoning tokens while improving overall performance” — konkretni postoci smanjenja tokena i povećanja točnosti nisu navedeni u javnom abstractu, već u glavnom tekstu papera. Ekonomska implikacija je jasna: “The resulting lower per-request cost indicates strong practical and economic potential for real-world deployment”.

Zašto je rad važan za industriju?

Prihvaćanje na ACL Industry Track signalizira da peer reviewers ocjenjuju rad kao production-ready, a ne samo akademski zanimljiv. Za kompanije koje servisiraju reasoning modele po API-u (OpenAI, Anthropic, Google, DeepSeek) ovaj pristup može ozbiljno utjecati na profit margine — manji broj tokena po upitu znači jeftiniju operaciju ili bolji omjer cijene i kvalitete. U doba kada reasoning model može trošiti 10× više tokena od običnog modela, čak i 30-40% redukcija predstavlja milijunske uštede za hyperscalere koji obrađuju milijarde upita mjesečno.

arXiv:2604.21764: 'Thinking with Reasoning Skills' smanjuje broj reasoning tokena uz veću točnost na ACL 2026 Industry Tracku

Što je problem koji paper rješava?

Kakvo je rješenje?

Strukturirano vs slobodno rasuđivanje

Što su konkretni rezultati?

Zašto je rad važan za industriju?

Izvori

Povezane vijesti