AWS Nova destilacija za video semantičku pretragu: 95 posto uštede i dvostruko brži inference
Zašto je bitno
AWS je demonstrirao kako model distillation prebacuje inteligenciju velikog Nova Premier modela u manji Nova Micro za video search routing. Rezultati su 95 posto ušteda na troškovima inferencija, 50 posto manja latencija (833 ms umjesto 1741 ms) i zadržana kvaliteta po LLM-as-judge ocjeni (4,0 od 5). Cijeli trening koristio je 10000 sintetičkih primjera generiranih iz Nova Premiera.
Amazon Web Services objavio je 17. travnja 2026. detaljni tehnički case study o model distillation tehnici — prebacivanju inteligencije iz velikog “teacher” modela u manji “student” model. Autori Amit Kalawat, Bimal Gajjar i James Wu pokazuju konkretne brojke na produkcijskom zadatku: video semantičku pretragu.
Distillation ukratko
Model distillation je tehnika gdje veliki, skupi i spor model (“teacher”) generira primjere iz kojih uči manji, jeftiniji i brži model (“student”). Za fixed zadatke — gdje model ne mora biti “zna sve o svemu”, nego samo “zna ovu konkretnu stvar” — distillation omogućuje dramatične uštede bez većeg gubitka kvalitete.
AWS setup
Zadatak je video search intent routing — odlučivanje koliko težine treba dati svakom od četiri modaliteta pri pretraživanju videa:
- Vizualni signal (što se vidi u slikama)
- Audio signal (glazba, zvučni efekti)
- Transkripcija (što se govori)
- Metapodaci (naslovi, opisi, tagovi)
Teacher model: Amazon Nova Premier — najveći Nova model, najsposobniji ali najskuplji Student model: Amazon Nova Micro — najmanji Nova, brz i jeftin, ali ne sposoban za složeni reasoning iz kutije
Metodologija i brojke
AWS je koristio sljedeći pipeline:
- 10.000 sintetičkih labeliranih primjera generiranih iz Nova Premiera
- Ravnomjerna distribucija kroz sva četiri signala (vizualni, audio, transkripcija, metapodaci)
- S3 upload i async training job kroz Bedrock Customization
- On-demand deployment destiliranog modela
- Evaluacija kroz Amazon Bedrock Model Evaluation s custom rubrics
Rezultati
Brojke koje AWS objavljuje su impresivne:
- Ušteda troškova inferencija: preko 95 posto na input i output tokena
- Latencija: 833 ms u odnosu na 1.741 ms baseline (50 posto smanjenje)
- Kvaliteta (LLM-as-judge): destilirani Nova Micro postiže 4,0 od 5, jednako kao baseline Nova Premier
Ovo je klasičan slučaj gdje destilacija radi — student postiže kvalitetu teachera na specifičnom uskom zadatku, a potpuno eliminira troškovni overhead velikog modela.
Zašto 10.000 primjera?
Uzorak od 10.000 primjera je zanimljivo izbalansiran: dovoljno velik da pokrije varijacije u produkcijskim video upitima, dovoljno mali da trening kroz Bedrock Customization ostane jeftin (nekoliko dolara za ovakav posao).
AWS nije objavio točnu cijenu ovog specifičnog treninga, ali na temelju prije objavljenih Nova Micro Text-to-SQL brojki (2.000 primjera, 8 USD), ovaj posao vjerojatno košta 30-40 USD za jednokratni trening. Za organizaciju koja bi inače plaćala Nova Premier inference trošak u tisućama dolara mjesečno, povrat investicije je praktički trenutan.
Kada koristiti distillation
Obrazac je najbolji kada:
- Model rješava usko definiran zadatak (routing, klasifikacija, jednostavan reasoning)
- Postoji stabilan distribuisani teacher (velika kompanija s vlastitim modelom)
- Inference volume je visok — jednokratni trening se opravdava kroz mjesece korištenja
- Latencija je kritična — 833 ms umjesto 1.741 ms je razlika između interaktivne i sporre aplikacije
Kontekst trenda
Ovaj post je drugi u seriji AWS objava o video semantičkoj pretrazi (prethodni je bio Nova Multimodal Embeddings — vidi sestrinski članak). Kombinacija je značajna — destilirani router na Micro modelu + multimodalni embeddings daje produkcijski deployable pipeline za enterprise scenarije: sportske arhive, studio arhive, news footage.
AWS tako signalizira da je model distillation spremna za produkciju kao first-class Bedrock feature, s jasnim ekonomskim modelom i dokumentiranim uštedama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate