Nova 2 Lite RFT: 4,33/5 i 1,00 JSON vs Claude 4.5

Reinforcement Fine-Tuning (RFT) je metoda treniranja u kojoj jezični model služi kao sudac (LLM-as-Judge) i daje povratnu informaciju umjesto skupog ručnog labeliranja. Amazon Nova 2 Lite je tako postigao agregatni rezultat 4,33/5,0 i savršenu JSON validaciju 1,00, nadmašivši Claude Sonnet 4.5 i Claude Haiku 4.5 na automatiziranoj reviziji pravnih ugovora.

AWS je 30. travnja 2026. objavio detaljan vodič koji pokazuje kako Reinforcement Fine-Tuning (RFT) kroz Nova Forge SDK može uskladiti specijaliziran model s domenskim zahtjevima bez skupog ručnog labeliranja. Demonstrirani slučaj — automatska revizija pravnih ugovora s generiranim popisom rizika, vrste komentara i preporučenih radnji u strogo strukturiranom JSON-u — postavlja Amazon Nova 2 Lite ispred većih Anthropicovih modela u istoj evaluaciji.

Što je RFT i kako se razlikuje od klasičnog RLHF?

RFT (Reinforcement Fine-Tuning) je oblik Reinforcement Learning with AI Feedback (RLAIF) gdje funkciju nagrade obavlja drugi LLM koji djeluje kao sudac. Umjesto da ljudi ručno označavaju tisuće parova “bolji/gori” odgovor, judge model dodjeljuje višedimenzionalne ocjene po unaprijed definiranoj rubrici, a trenirani model uči maksimizirati te ocjene. AWS implementacija koristi off_policy_async rollout strategiju s 8 generiranja po uzorku, do 16 000 izlaznih tokena, globalnim batch-om 64 i ukupno 516 koraka.

Zašto LLM-as-Judge nadmašuje veće modele baseline?

Na strogo strukturiranom zadatku ekstrakcije pravnih komentara veliki generalistički modeli imaju tendenciju varirati format izlaza, dok manji model fino-podešen ciljanom rubrikom nauči proizvoditi izlaz koji točno prolazi schema validaciju. AWS izvještava da je Nova 2 Lite postigla 1,00/1,0 na JSON schema validaciji i 4,33/5,0 agregat preko tri dimenzije: TargetDocument_Grounding, Reference_Consistency i Actionability. Claude Sonnet 4.5 i Claude Haiku 4.5 ostali su ispod te razine — što znači da preciznost rubrike u judgeu može biti važnija od veličine baseline modela.

Konfiguracija treniranja i infrastruktura

Sustav je smješten u serverless okruženje: judge i rollout pozive obrađuje Lambda s timeout-om od 15 minuta i provisioned concurrency 100, a checkpointi se spremaju svakih 32 koraka. Autori (Hemanth Kumar Jayakumar, Ajit Kumar K.P., Bharathan Balaji i Daniel Suarez) izričito napominju da je Boolean ocjenjivanje pojedinih dimenzija pouzdanije od 1–10 skale jer smanjuje varijancu sudovanja.

Implikacija za enterprise primjenu

RFT s LLM-as-Judge omogućuje timovima koji nemaju budžet za ručno labeliranje da specijaliziraju manje (i jeftinije) modele za usko definirane domene poput pravne, financijske ili medicinske ekstrakcije. Ako je rezultat reproducibilan na drugim verticalima, ovo je signal da fine-tuning radni tijek ulazi u fazu u kojoj mali specijalistički modeli mogu rutinski premašivati frontier baseline u ciljanim zadacima.

Česta pitanja

Što je Reinforcement Fine-Tuning (RFT) u Nova Forge SDK-u?

RFT je oblik Reinforcement Learning with AI Feedback (RLAIF) gdje LLM sudac dodjeljuje višedimenzionalne ocjene generiranom izlazu, a model uči maksimizirati te ocjene bez potrebe za ručno označenim podacima.

Kako se Nova 2 Lite usporedila s Claude modelima u ovoj evaluaciji?

Na zadatku revizije pravnih ugovora Nova 2 Lite je s 4,33/5,0 nadmašila Claude Sonnet 4.5 i Claude Haiku 4.5 i postigla najveću ukupnu performansu od svih evaluiranih modela.

Koji je sudac (judge) korišten u treningu?

Za training rollout-e je korišten GPT OSS 120B kao judge model, dok evaluacija dopušta heavyweight tier (Nova Pro, Claude Opus, Claude Sonnet) ili lightweight tier (Nova 2 Lite, Claude Haiku).

Amazon Nova 2 Lite uz Reinforcement Fine-Tuning postiže 4,33/5,0 i nadmašuje Claude Sonnet 4.5 na automatiziranoj reviziji pravnih ugovora

Što je RFT i kako se razlikuje od klasičnog RLHF?

Zašto LLM-as-Judge nadmašuje veće modele baseline?

Konfiguracija treniranja i infrastruktura

Implikacija za enterprise primjenu

Česta pitanja

Izvori

Povezane vijesti