Mora li se model fino ugađati (fine-tuning) da bi SkillOpt funkcionirao?

Ne. Težine modela ostaju potpuno zamrznute — SkillOpt mijenja isključivo tekstualne skill datoteke koje agent dobiva kao instrukcije.

Koliko su veliki optimizirani skillovi?

Medijalna duljina optimiziranih skill datoteka iznosi oko 920 tokena, uz samo 1 do 4 prihvaćena teksualna edita po optimizacijskom postupku.

Prenose li se naučeni skillovi između različitih modela?

Da. Optimizirani skillovi pokazali su se prenosivima između modela različitih veličina i različitih izvršnih okruženja, uz jedan dokumentirani cross-harness transfer koji je donio poboljšanje od 59,7 postotnih bodova.

SkillOpt: skill datoteke kao trenirajući parametri

Microsoft Research objavio je SkillOpt — sustav koji optimizira skill datoteke agenata iterativnim forward-backward ciklusom bez dotarivanja težina modela. Na 52 evaluacijske ćelije postigao je najbolje ili izjednačene rezultate, a GPT-5.5 s optimiziranim skillovima skočio je sa 58,8 na 82,3 posto prosječne točnosti.

Microsoft Research objavio je SkillOpt — sustav koji rješava problem koji se dosad uglavnom ignorirao: kako sustavno poboljšati ponašanje AI agenta bez dodirivanja težina modela. Umjesto fine-tuninga, SkillOpt tretira instrukcijske i skill datoteke kao trenirajuće parametre i primjenjuje optimizacijski ciklus isključivo na tekst koji agent dobiva kao upute.

Forward-backward-update: kako izgleda jedan ciklus

Postupak se odvija u tri koraka koji se ponavljaju:

Forward pass — zamrznuti ciljni model izvršava zadatke koristeći trenutnu verziju skill datoteke. Ništa u modelu se ne mijenja; jedino što se bilježi je trajektorija — niz akcija i međurezultata.

Backward pass — zasebni optimizatorski model analizira trajektorije i identificira obrasce: što je funkcioniralo, što nije, gdje je agent skrenuo s puta. Na temelju te analize predlaže ograničene tekstualne edite: dodavanje rečenice, brisanje upute, zamjena formulacije.

Update step — predloženi editi prolaze validacijsku kapiju. Prihvaćaju se samo oni koji poboljšavaju rezultat na held-out validacijskim podacima. Odbijeni editi ulaze u povratnu petlju za sljedeći poziv optimizatoru, a na razini epohe provode se sporiji meta-updatei koji konsolidiraju dugoročne lekcije.

Mehanizam koji sprečava prompt drift — situaciju u kojoj se skill datoteka akumuliranim editima degenerira u besmisao — jest best-version odabir: svaki edit mora biti bolje od trenutne verzije, a ne samo drugačije.

52 evaluacijske ćelije: konzistentnost kao ključni nalaz

Istraživači su testirali SkillOpt na 6 benchmarkova (SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld) × 7 modela × 3 načina izvršavanja — ukupno 52 evaluacijske ćelije. Na svim 52 SkillOpt je postigao najbolje ili izjednačene rezultate u usporedbi s relevantnim baznim linijama.

Najveći dokumentirani skokovi, svi mjereni na GPT-5.5:

Benchmark	Prije	Poslije	Dobitak
Šest-benchmark prosjek	58,8%	82,3%	+23,5 pp
SpreadsheetBench	41,8%	80,7%	+39,0 pp
OfficeQA	33,1%	72,1%	+39,0 pp
LiveMathematicianBench	37,6%	66,9%	+29,3 pp

Posebno je znakovit podatak o OfficeQA optimizaciji: poboljšanje od 39 postotnih bodova postignuto je jednim jedinim editom u skill datoteci. To sugerira da se u postojećim instrukcijama nalaze visokovalentne greške — formulacije koje sustavno skreću agenta.

Kompaktnost i prenosivost

Finalne skill datoteke sadrže medijalno oko 920 tokena s 1 do 4 prihvaćena edita po slučaju. Kompaktnost nije slučajna — validacijska kapija prirodno filtrira redundantne edite koji ne donose mjerljivo poboljšanje.

Prenosivost je dokumentirana na više razina. Optimizacija za jedan harness (npr. Codex) dala je +24,8 pp, a isti skillovi na Claude Code harnessу donijeli su +19,1 pp bez ponovne optimizacije. Jedan cross-harness transfer zabilježio je +59,7 pp — što znači da je agent s skillovima optimiziranim za jednu platformu nadmašio vlastitu baznu liniju na potpuno drugoj.

Zašto je ovo drugačije od prompt engineeringa?

Ručni prompt engineering je iterativan, ali nije sustavni. Inženjeri mijenjaju upute prema intuiciji, bez kvantitativne povratne informacije po svakom editu i bez mehanizma koji sprečava regresiju. SkillOpt formalizira taj proces: svaka promjena je izmjerena, svaki korak je auditabilan, a završni artefakt — optimizirana skill datoteka — može se verzionirati, dijeliti i primijeniti na bilo koji kompatibilni model.

Za organizacije koje već raspolažu agentnom infrastrukturom, implikacija je jasna: model ne treba biti bolji da bi agent bio bolji. Dovoljno je sustavno optimizirati tekst koji model dobiva.

SkillOpt: Microsoft Research tretira instrukcijske datoteke agenata kao trenirajuće parametre

Forward-backward-update: kako izgleda jedan ciklus

52 evaluacijske ćelije: konzistentnost kao ključni nalaz

Kompaktnost i prenosivost

Zašto je ovo drugačije od prompt engineeringa?

Česta pitanja

Izvori

Povezane vijesti