Koliki je konkretno utjecaj na troškove i brzinu?

95 posto manji troškovi inferencija (na input i output tokena) i 50 posto niža latencija — 833 ms umjesto 1741 ms. Kvaliteta je očuvana (4,0 od 5 po LLM-as-judge ocjeni).

Koje modele AWS koristi kao teacher i student?

Teacher je Amazon Nova Premier (najveći, najsposobniji). Student je Amazon Nova Micro (brz, jeftin). Premier generira 10.000 sintetičkih labeliranih primjera koji treniraju Micro za specifičan zadatak video search routinga.

Koji konkretan zadatak radi distilirani model?

Alokacija težina između četiri modaliteta (vizualni, audio, transkripcija, metapodaci) pri video pretraživanju. Prije destilacije taj routing radio je veliki Premier model, sada ga jednako kvalitetno radi Micro.

AWS Nova destilacija za video semantičku pretragu: 95 posto uštede i dvostruko brži inference

Amazon Web Services objavio je 17. travnja 2026. detaljni tehnički case study o model distillation tehnici — prebacivanju inteligencije iz velikog “teacher” modela u manji “student” model. Autori Amit Kalawat, Bimal Gajjar i James Wu pokazuju konkretne brojke na produkcijskom zadatku: video semantičku pretragu.

Distillation ukratko

Model distillation je tehnika gdje veliki, skupi i spor model (“teacher”) generira primjere iz kojih uči manji, jeftiniji i brži model (“student”). Za fixed zadatke — gdje model ne mora biti “zna sve o svemu”, nego samo “zna ovu konkretnu stvar” — distillation omogućuje dramatične uštede bez većeg gubitka kvalitete.

AWS setup

Zadatak je video search intent routing — odlučivanje koliko težine treba dati svakom od četiri modaliteta pri pretraživanju videa:

Vizualni signal (što se vidi u slikama)
Audio signal (glazba, zvučni efekti)
Transkripcija (što se govori)
Metapodaci (naslovi, opisi, tagovi)

Teacher model: Amazon Nova Premier — najveći Nova model, najsposobniji ali najskuplji Student model: Amazon Nova Micro — najmanji Nova, brz i jeftin, ali ne sposoban za složeni reasoning iz kutije

Metodologija i brojke

AWS je koristio sljedeći pipeline:

10.000 sintetičkih labeliranih primjera generiranih iz Nova Premiera
Ravnomjerna distribucija kroz sva četiri signala (vizualni, audio, transkripcija, metapodaci)
S3 upload i async training job kroz Bedrock Customization
On-demand deployment destiliranog modela
Evaluacija kroz Amazon Bedrock Model Evaluation s custom rubrics

Rezultati

Brojke koje AWS objavljuje su impresivne:

Ušteda troškova inferencija: preko 95 posto na input i output tokena
Latencija: 833 ms u odnosu na 1.741 ms baseline (50 posto smanjenje)
Kvaliteta (LLM-as-judge): destilirani Nova Micro postiže 4,0 od 5, jednako kao baseline Nova Premier

Ovo je klasičan slučaj gdje destilacija radi — student postiže kvalitetu teachera na specifičnom uskom zadatku, a potpuno eliminira troškovni overhead velikog modela.

Zašto 10.000 primjera?

Uzorak od 10.000 primjera je zanimljivo izbalansiran: dovoljno velik da pokrije varijacije u produkcijskim video upitima, dovoljno mali da trening kroz Bedrock Customization ostane jeftin (nekoliko dolara za ovakav posao).

AWS nije objavio točnu cijenu ovog specifičnog treninga, ali na temelju prije objavljenih Nova Micro Text-to-SQL brojki (2.000 primjera, 8 USD), ovaj posao vjerojatno košta 30-40 USD za jednokratni trening. Za organizaciju koja bi inače plaćala Nova Premier inference trošak u tisućama dolara mjesečno, povrat investicije je praktički trenutan.

Kada koristiti distillation

Obrazac je najbolji kada:

Model rješava usko definiran zadatak (routing, klasifikacija, jednostavan reasoning)
Postoji stabilan distribuisani teacher (velika kompanija s vlastitim modelom)
Inference volume je visok — jednokratni trening se opravdava kroz mjesece korištenja
Latencija je kritična — 833 ms umjesto 1.741 ms je razlika između interaktivne i sporre aplikacije

Kontekst trenda

Ovaj post je drugi u seriji AWS objava o video semantičkoj pretrazi (prethodni je bio Nova Multimodal Embeddings — vidi sestrinski članak). Kombinacija je značajna — destilirani router na Micro modelu + multimodalni embeddings daje produkcijski deployable pipeline za enterprise scenarije: sportske arhive, studio arhive, news footage.

AWS tako signalizira da je model distillation spremna za produkciju kao first-class Bedrock feature, s jasnim ekonomskim modelom i dokumentiranim uštedama.