对成本和速度的具体影响是什么？

推理成本（输入和输出token）降低95%，延迟降低50%——833毫秒而非1741毫秒。质量得到保留（LLM-as-judge评分5分中的4分）。

AWS使用哪些模型作为教师和学生？

教师是Amazon Nova Premier（最大、最强大的模型）。学生是Amazon Nova Micro（速度快、成本低）。Premier生成10,000个合成标记样本，训练Micro完成特定的视频搜索路由任务。

在视频搜索时分配四个模态（视觉、音频、转录、元数据）的权重。蒸馏前，这种路由由大型Premier模型完成，现在Micro以同等质量完成。

亚马逊网络服务（AWS）于2026年4月17日发布了关于模型蒸馏技术的详细技术案例研究——将大型”教师”模型的智能转移到更小的”学生”模型。作者Amit Kalawat、Bimal Gajjar和James Wu展示了视频语义搜索生产任务中的具体数据。

模型蒸馏是一种技术，其中大型、昂贵且缓慢的模型（“教师”）生成样本，供更小、更便宜且更快的模型（“学生”）学习。对于固定任务——模型不需要”了解一切”，而只需”了解这件特定的事”——蒸馏可以在不损失太多质量的情况下实现显著节省。

任务是视频搜索意图路由——决定在搜索视频时给四个模态中的每一个分配多少权重：

教师模型： Amazon Nova Premier——最大的Nova模型，最强大但最昂贵 学生模型： Amazon Nova Micro——最小的Nova，速度快成本低，但开箱即用时复杂推理能力有限

AWS使用以下流程：

AWS公布的数据令人印象深刻：

这是蒸馏生效的经典案例——学生在特定任务上达到教师的质量，同时完全消除了大型模型的成本开销。

10,000个样本的大小经过有趣的平衡：足够大以涵盖生产视频查询的变化，足够小以使通过Bedrock Customization的训练保持经济实惠（此类工作只需几美元）。

AWS没有公布这次具体训练的确切成本，但根据之前公布的Nova Micro文本到SQL数字（2,000个样本，8美元），这个工作的成本可能是30-40美元用于一次性训练。对于每月本来需要支付数千美元Nova Premier推理成本的组织来说，投资回报几乎是立竿见影的。

该模式在以下情况最为有效：

这篇帖子是AWS视频语义搜索系列发布的第二篇（前一篇是Nova多模态嵌入——见姊妹文章）。这种组合意义重大——Micro模型上的蒸馏路由器+多模态嵌入提供了适用于企业场景的生产就绪管道：体育档案、工作室档案、新闻素材。