🤖 24 AI
🟡 🏥 实践应用 2026年4月23日星期四 · 2 分钟阅读

AWS与NVIDIA Parakeet-TDT以每分钟0.00005美元的价格实现25种语言转录

编辑插图:AI实践——praksa

为什么重要

AWS机器学习博客介绍了如何在云端使用NVIDIA开源模型Parakeet-TDT-0.6B-v3进行低成本多语言音频转录。该模型支持25种欧洲语言并自动检测语言,结合AWS Batch,在Spot实例上处理一分钟音频的费用仅为0.00005美元,在按需g6.xlarge GPU实例上为0.00011美元,支持缩减至零策略,并可通过缓冲流式传输处理超过十小时的音频录音。

支持25种语言自动检测的开源模型

AWS机器学习团队发布了一份详细的参考架构,使用NVIDIA开源自动语音识别模型Parakeet-TDT-0.6B-v3进行大规模多语言音频转录。这个拥有6亿参数的模型以开放许可证发布,直接支持25种欧洲语言,从克罗地亚语和塞尔维亚语到乌克兰语和芬兰语,并内置语言自动检测。这意味着用户无需提前标注每段录音的语言,模型会自动识别来源并返回转录结果。

对于处理多文化内容的公司——例如媒体档案馆、联系中心、网络研讨会或播客——省去语言预分类意味着数据输入环节工作量大幅减少。另一个优势是该模型足够小,可以在单个消费级GPU上运行,使其适合大规模批量处理,而大型Transformer模型在这方面成本过高。

AWS Batch与缩减至零的经济效益

AWS推荐的架构将Parakeet-TDT与g6.xlarge GPU实例上的AWS Batch服务相结合。该架构的关键特性是缩减至零策略:当队列中没有任务时,集群自动降至零GPU实例,用户只需支付存储费用。一旦新的音频文件进入队列,Batch会自动启动实例、开始处理并将转录结果返回到S3存储桶。

经济性令人信服:按需模式下每分钟音频0.00011美元,Spot实例下仅0.00005美元。具体来说,Spot模式下一小时音频的费用约为0.3美分,比商业转录API便宜一个数量级。博客文章明确指出,Spot实例与缩减至零相结合大幅降低了固定成本,尤其对于偶尔处理大型档案的组织而言。

长录音的缓冲流式传输与处理速度

语音模型的技术挑战之一是上下文长度有限,需要手动将长录音分割成片段。AWS在这份参考架构中实现了缓冲流式传输机制,无需手动切割即可处理超过十小时的音频录音。模型以滑动窗口处理音频,并在逻辑边界处合并转录结果,这对播客、长篇讲座和会议录音至关重要。

在速度方面,报告显示平均处理时间为每分钟输入音频0.49秒,即在单个GPU上大约比实时速度快120倍。这意味着Parakeet-TDT在约5分钟内即可处理十小时音频,Spot模式下费用约为0.03美元。对于媒体机构、法律事务所或转录团队,这样的速度和成本改变了商业模式——转录不再是瓶颈,而几乎成为流水线中的免费步骤。

🤖

本文由人工智能基于一手来源生成。