AWS Nova蒸馏用于视频语义搜索:节省95%成本,推理速度提升一倍
为什么重要
AWS演示了模型蒸馏如何将大型Nova Premier模型的智能转移到更小的Nova Micro用于视频搜索路由。结果是推理成本节省95%,延迟降低50%(833毫秒而非1741毫秒),LLM-as-judge评分保持质量(5分中的4分)。整个训练使用了从Nova Premier生成的10000个合成样本。
亚马逊网络服务(AWS)于2026年4月17日发布了关于模型蒸馏技术的详细技术案例研究——将大型”教师”模型的智能转移到更小的”学生”模型。作者Amit Kalawat、Bimal Gajjar和James Wu展示了视频语义搜索生产任务中的具体数据。
蒸馏简介
模型蒸馏是一种技术,其中大型、昂贵且缓慢的模型(“教师”)生成样本,供更小、更便宜且更快的模型(“学生”)学习。对于固定任务——模型不需要”了解一切”,而只需”了解这件特定的事”——蒸馏可以在不损失太多质量的情况下实现显著节省。
AWS设置
任务是视频搜索意图路由——决定在搜索视频时给四个模态中的每一个分配多少权重:
- 视觉信号(图像中可见的内容)
- 音频信号(音乐、声效)
- 转录(所说的内容)
- 元数据(标题、描述、标签)
教师模型: Amazon Nova Premier——最大的Nova模型,最强大但最昂贵 学生模型: Amazon Nova Micro——最小的Nova,速度快成本低,但开箱即用时复杂推理能力有限
方法论与数据
AWS使用以下流程:
- 从Nova Premier生成10,000个合成标记样本
- 通过四个信号(视觉、音频、转录、元数据)均匀分布
- S3上传并通过Bedrock Customization进行异步训练任务
- 按需部署蒸馏模型
- 使用Amazon Bedrock模型评估和自定义评分标准进行评估
结果
AWS公布的数据令人印象深刻:
- 推理成本节省:超过95%(输入和输出token)
- 延迟:833毫秒(对比1,741毫秒基线,降低50%)
- 质量(LLM-as-judge): 蒸馏的Nova Micro达到5分中的4分,与基线Nova Premier相同
这是蒸馏生效的经典案例——学生在特定任务上达到教师的质量,同时完全消除了大型模型的成本开销。
为什么选择10,000个样本?
10,000个样本的大小经过有趣的平衡:足够大以涵盖生产视频查询的变化,足够小以使通过Bedrock Customization的训练保持经济实惠(此类工作只需几美元)。
AWS没有公布这次具体训练的确切成本,但根据之前公布的Nova Micro文本到SQL数字(2,000个样本,8美元),这个工作的成本可能是30-40美元用于一次性训练。对于每月本来需要支付数千美元Nova Premier推理成本的组织来说,投资回报几乎是立竿见影的。
何时使用蒸馏
该模式在以下情况最为有效:
- 模型解决狭义定义的任务(路由、分类、简单推理)
- 存在稳定分布的教师(拥有自己模型的大型公司)
- 推理量高——一次性训练通过数月使用得到证明
- 延迟至关重要——833毫秒对比1,741毫秒是交互式和缓慢应用之间的差异
趋势背景
这篇帖子是AWS视频语义搜索系列发布的第二篇(前一篇是Nova多模态嵌入——见姊妹文章)。这种组合意义重大——Micro模型上的蒸馏路由器+多模态嵌入提供了适用于企业场景的生产就绪管道:体育档案、工作室档案、新闻素材。
AWS由此表明模型蒸馏已作为一级Bedrock功能准备好投入生产,具有清晰的经济模型和有据可查的节省。
本文由人工智能基于一手来源生成。