AWS Nova destilacija za video semantičku pretragu: 95 posto uštede i dvostruko brži inference
AWS je demonstrirao kako model distillation prebacuje inteligenciju velikog Nova Premier modela u manji Nova Micro za video search routing. Rezultati su 95 posto ušteda na troškovima inferencija, 50 posto manja latencija (833 ms umjesto 1741 ms) i zadržana kvaliteta po LLM-as-judge ocjeni (4,0 od 5). Cijeli trening koristio je 10000 sintetičkih primjera generiranih iz Nova Premiera.