AWS Nova Destillation für die semantische Videosuche: 95 Prozent Kosteneinsparung und doppelt so schnelle Inferenz
AWS hat demonstriert, wie Modell-Destillation die Intelligenz des großen Nova-Premier-Modells in das kleinere Nova Micro für das Video-Such-Routing überträgt. Die Ergebnisse umfassen 95 Prozent Einsparungen bei den Inferenzkosten, 50 Prozent niedrigere Latenz (833 ms statt 1741 ms) und beibehaltene Qualität laut LLM-as-Judge-Bewertung (4,0 von 5). Das gesamte Training verwendete 10.000 synthetische Beispiele, die aus Nova Premier generiert wurden.