DART: Adaptivni thinking budget bez treninga

DART je metoda usmjeravanja koja bez ikakvog treninga odlučuje treba li AI model dugo razmišljati ili može odmah odgovoriti — smanjuje potrošnju thinking tokena za 15–69% uz istovremeni rast točnosti do +22,5 bodova na testovima koda.

Hibridni reasoning modeli i problem rasipanja tokena

Suvremeni hibridni reasoning modeli — poput Claude 3.7 Sonnet ili QwQ — mogu birati između dva načina rada: kratkog izravnog odgovora ili dugog lanca zaključivanja s tzv. thinking tokenima (međukoracima razmišljanja vidljivim samo modelu). Problem je što modeli često troše skupocjene thinking tokene i na trivijalna pitanja, nepotrebno usporavajući zaključivanje i povećavajući troškove.

Istraživači sa Sveučilišta Korea i pridruženih institucija predstavili su DART (Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets) — metodu koja to mijenja bez ijednog koraka dodatnog treniranja.

Kako DART odlučuje treba li model „razmišljati”?

Ideja je elegantno jednostavna: DART najprije generira dva jeftina „no-think” drafta (kratke odgovore bez proširenog razmišljanja). Ako se slažu → model izravno vraća odgovor. Ako se ne slažu, DART mjeri entropiju neslaganja i iz nje dinamički izračunava koliki je thinking budget (maksimalni broj tokena za dublje razmišljanje) zapravo potreban — veće neslaganje znači veći budžet.

Ovaj pristup u potpunosti zaobilazi potrebu za labeliranim podacima ili gradient updateom, što ga čini primjenjivim na modelima raspona od 0,6B do 32B parametara, uključujući API-only pristup bez uvida u unutarnju arhitekturu.

Rezultati: manje tokena, veća točnost

Eksperimentalni rezultati jasno govore u korist metode. Na olimpijskoj matematici (Olympiad-level benchmarci) DART postiže do +9,0 bodova točnosti uz smanjenje thinking tokena između 15 i 69% u odnosu na baseline modele koji uvijek koriste puni thinking budget.

Na zadacima pisanja koda rast je još izrazitiji: +22,5 bodova točnosti uz smanjenje potrošnje tokena od 51 do 63%. Uspoređeno s fiksnim thinking budgetom — standardnim pristupom gdje model uvijek troši jednak broj tokena bez obzira na težinu zadatka — DART nudi bolji omjer točnosti i troška u svim testiranim scenarijima.

Zašto je to važno za produkcijske sustave?

Thinking tokeni nisu besplatni: kod API modela naplaćuju se po komadu i direktno utječu na latenciju. DART otvara put prema inference sustavima koji troše skuplje resurse samo kad je to opravdano težinom upita — bez potrebe za finim podešavanjem ili novim modelom. Kod je javno dostupan, a metoda je model-agnostična, što znači da se može primijeniti na razne hibridne reasoning sustave bez modifikacije samih modela.

Česta pitanja

Treba li DART dodatno treniranje ili labeled podatke?

Ne — DART je training-free metoda koja radi isključivo na temelju suglasnosti između dva jeftina drafta, bez gradient updatea, bez labeliranih primjera i bez pristupa internim težinama modela.

Na kojim modelima i veličinama radi DART?

DART je testiran na modelima od 0,6B do 32B parametara, u različitim modelskim obiteljima, i funkcionira čak i u API-only postavkama gdje nema pristupa internoj arhitekturi.

arXiv:2606.23181: DART — bez treninga do adaptivnog mišljenja u hibridnim reasoning modelima

Hibridni reasoning modeli i problem rasipanja tokena

Kako DART odlučuje treba li model „razmišljati”?

Rezultati: manje tokena, veća točnost

Zašto je to važno za produkcijske sustave?

Česta pitanja

Izvori

Povezane vijesti