Welchen konkreten Einfluss hat das auf Kosten und Geschwindigkeit?

95 Prozent niedrigere Inferenzkosten (bei Input- und Output-Tokens) und 50 Prozent niedrigere Latenz — 833 ms statt 1741 ms. Die Qualität bleibt erhalten (4,0 von 5 gemäß LLM-as-Judge-Bewertung).

Welche Modelle verwendet AWS als Teacher und Student?

Der Teacher ist Amazon Nova Premier (größtes, leistungsfähigstes Modell). Der Student ist Amazon Nova Micro (schnell, günstig). Premier generiert 10.000 synthetische beschriftete Beispiele, die Micro für die spezifische Aufgabe des Video-Such-Routings trainieren.

Welche konkrete Aufgabe erfüllt das destillierte Modell?

Die Zuweisung von Gewichtungen zwischen vier Modalitäten (visuell, Audio, Transkription, Metadaten) bei der Videosuche. Vor der Destillation erledigte das große Premier-Modell dieses Routing; jetzt erledigt Micro es mit gleicher Qualität.

AWS Nova Destillation für die semantische Videosuche: 95 Prozent Kosteneinsparung und doppelt so schnelle Inferenz

Amazon Web Services hat am 17. April 2026 eine detaillierte technische Fallstudie über die Modell-Destillations-Technik veröffentlicht — die Übertragung von Intelligenz aus einem großen „Teacher”-Modell in ein kleineres „Student”-Modell. Die Autoren Amit Kalawat, Bimal Gajjar und James Wu präsentieren konkrete Zahlen aus einer Produktionsaufgabe: semantische Videosuche.

Destillation kurz erklärt

Modell-Destillation ist eine Technik, bei der ein großes, teures und langsames Modell („Teacher”) Beispiele generiert, aus denen ein kleineres, günstigeres und schnelleres Modell („Student”) lernt. Für feste Aufgaben — bei denen das Modell nicht „alles über alles wissen” muss, sondern nur „diese eine spezifische Sache” — ermöglicht die Destillation dramatische Einsparungen ohne wesentlichen Qualitätsverlust.

AWS-Setup

Die Aufgabe ist Video-Such-Intent-Routing — die Entscheidung, wie viel Gewicht jeder der vier Modalitäten bei der Videosuche gegeben werden soll:

Visuelles Signal (was in Bildern zu sehen ist)
Audiosignal (Musik, Soundeffekte)
Transkription (was gesprochen wird)
Metadaten (Titel, Beschreibungen, Tags)

Teacher-Modell: Amazon Nova Premier — das größte Nova-Modell, leistungsfähigstes, aber teuerstes
Student-Modell: Amazon Nova Micro — das kleinste Nova, schnell und günstig, aber ohne ausgeprägte Complex-Reasoning-Fähigkeiten von Haus aus

Methodik und Zahlen

AWS verwendete folgende Pipeline:

10.000 synthetische beschriftete Beispiele, generiert aus Nova Premier
Gleichmäßige Verteilung über alle vier Signale (visuell, Audio, Transkription, Metadaten)
S3-Upload und asynchroner Trainingsjob über Bedrock Customization
On-Demand-Deployment des destillierten Modells
Evaluierung über Amazon Bedrock Model Evaluation mit benutzerdefinierten Rubriken

Ergebnisse

Die von AWS veröffentlichten Zahlen sind beeindruckend:

Inferenzkosteneinsparungen: über 95 Prozent bei Input- und Output-Tokens
Latenz: 833 ms gegenüber 1.741 ms Baseline (50 Prozent Reduktion)
Qualität (LLM-as-Judge): destilliertes Nova Micro erreicht 4,0 von 5, gleichauf mit Baseline Nova Premier

Dies ist ein klassischer Fall, in dem Destillation funktioniert — der Student erreicht die Teacher-Qualität bei einer spezifischen engen Aufgabe und eliminiert dabei vollständig den Kostenaufwand des großen Modells.

Warum 10.000 Beispiele?

Ein Stichprobenumfang von 10.000 Beispielen ist interessant ausgewogen: groß genug, um Variationen in produktiven Videoanfragen abzudecken, klein genug, damit das Training über Bedrock Customization günstig bleibt (wenige Dollar für diesen Job).

AWS hat die genauen Kosten für dieses spezifische Training nicht veröffentlicht, aber basierend auf zuvor veröffentlichten Nova Micro Text-to-SQL-Zahlen (2.000 Beispiele, 8 USD) kostet dieser Job wahrscheinlich 30–40 USD für einen einmaligen Trainingslauf. Für eine Organisation, die sonst Nova-Premier-Inferenzkosten in Höhe von Tausenden von Dollar monatlich zahlen würde, ist die Kapitalrendite praktisch sofort.

Wann Destillation einsetzen

Das Muster eignet sich am besten, wenn:

Das Modell eine eng definierte Aufgabe löst (Routing, Klassifikation, einfaches Reasoning)
Ein stabiler und verteilter Teacher vorhanden ist (großes Unternehmen mit eigenem Modell)
Das Inferenzvolumen hoch ist — ein einmaliger Trainingslauf zahlt sich über Monate der Nutzung aus
Latenz kritisch ist — 833 ms statt 1.741 ms ist der Unterschied zwischen einer interaktiven und einer trägen Anwendung

Trendkontext

Dieser Beitrag ist der zweite in AWS’ Serie über die semantische Videosuche (der vorherige behandelte Nova Multimodal Embeddings — siehe Schwesterbeitrag). Die Kombination ist bedeutsam — ein destillierter Router auf dem Micro-Modell plus multimodale Embeddings ergibt eine produktionsreife Pipeline für Enterprise-Szenarien: Sportarchive, Studioarchive, Nachrichtenmaterial.

AWS signalisiert damit, dass Modell-Destillation als erstklassiges Bedrock-Feature produktionsreif ist, mit einem klaren wirtschaftlichen Modell und dokumentierten Einsparungen.