Reasoning model (model rezoniranja)

Reasoning model (model rezoniranja) je veliki jezični model treniran — najčešće reinforcement learningom na verifikabilnim problemima — da troši produženo compute vrijeme razmišljajući prije odgovora. Interno model proizvodi dugi lanac međukoraka (ponekad nazvan “thinking tokens”), često skrivenih od korisnika, a zatim daje sažet konačan odgovor.

Paradigma je ušla u mainstream s OpenAI o1 (rujan 2024.), zatim o3, DeepSeek R1, Anthropic Claude s extended thinking, Google Gemini Thinking i Qwen QwQ. Reasoning modeli briljiraju u matematici, natjecateljskom programiranju, znanstvenom rezoniranju i višekoračnom planiranju — domenama gdje je verifikacija jednostavna i model se može nagraditi za točne konačne odgovore neovisno o lancu.

Ovo se ponekad zove test-time compute scaling: umjesto da (samo) povećate model, dopustite mu da razmišlja dulje pri inferenciji. Empirijski, udvostručavanje thinking tokena često poboljšava točnost na teškim problemima, otvarajući novu os skaliranja izvan pre-training compute-a.

Trade-offovi:

Cijena: 5-30× više output tokena od standardnog odgovora
Latencija: sekunde do minute po odgovoru
Opadajući dobici: dulje razmišljanje na kraju plato-aplodne
Domenska selektivnost: snažni dobici na logici/matematici/kodu, manji na open-ended pisanju

Do 2026. svaki veliki laboratorij isporučuje i “brzi” i “reasoning” model. Routing — biranje pravog modela po upitu — postao je vlastiti optimizacijski problem.

Izvori

Vidi također