Treniranje
Lanac razmišljanja (Chain-of-Thought)
Tehnika kojom jezični model prije konačnog odgovora ispisuje niz međukoraka rezoniranja, čime znatno poboljšava točnost na složenim, višekoračnim zadacima.
Lanac razmišljanja (Chain-of-Thought, CoT) tehnika je u kojoj veliki jezični model prije konačnog odgovora generira niz međukoraka rezoniranja — gotovo kao da “razmišlja naglas”. Umjesto da odmah ispiše rješenje, model problem rastavlja na manje korake, što znatno poboljšava točnost na aritmetičkim, logičkim i višekoračnim zadacima.
Tehniku su 2022. opisali istraživači Google Braina (Wei i sur.). U izvornom obliku radi se o učenju iz konteksta: u prompt se ubace primjeri s prikazanim koracima rješavanja. Kasnije se pokazalo da i samo dodavanje fraze “razmišljajmo korak po korak” potiče zero-shot CoT bez ijednog primjera.
Lanac razmišljanja temelj je suvremenih modela rezoniranja poput OpenAI-jeve serije o1/o3, DeepSeek R1 i Claudea s extended thinkingom, koji su tijekom 2024.-2026. CoT pretvorili iz tehnike promptanja u trenirano svojstvo modela. Time je otvorena nova os skaliranja — više compute-a pri inferenciji u zamjenu za točnost.