支持哪些语言？

Parakeet-TDT-0.6B-v3支持25种欧洲语言，并自动检测语言，因此无需提前指定输入录音的语言。

一分钟转录实际花费多少？

在AWS g6.xlarge实例上，按需模式下每分钟音频的费用为0.00011美元，使用Spot实例为0.00005美元，比商业转录服务便宜一个数量级。

该模型能处理长音频录音吗？

可以。通过缓冲流式传输方法，AWS Batch可处理超过十小时的音频录音，平均处理时间为每分钟输入音频0.49秒。

AWS Parakeet-TDT：以0.00005美元/分钟转录25种语言

支持25种语言自动检测的开源模型

AWS机器学习团队发布了一份详细的参考架构，使用NVIDIA开源自动语音识别模型Parakeet-TDT-0.6B-v3进行大规模多语言音频转录。这个拥有6亿参数的模型以开放许可证发布，直接支持25种欧洲语言，从克罗地亚语和塞尔维亚语到乌克兰语和芬兰语，并内置语言自动检测。这意味着用户无需提前标注每段录音的语言，模型会自动识别来源并返回转录结果。

对于处理多文化内容的公司——例如媒体档案馆、联系中心、网络研讨会或播客——省去语言预分类意味着数据输入环节工作量大幅减少。另一个优势是该模型足够小，可以在单个消费级GPU上运行，使其适合大规模批量处理，而大型Transformer模型在这方面成本过高。

AWS Batch与缩减至零的经济效益

AWS推荐的架构将Parakeet-TDT与g6.xlarge GPU实例上的AWS Batch服务相结合。该架构的关键特性是缩减至零策略：当队列中没有任务时，集群自动降至零GPU实例，用户只需支付存储费用。一旦新的音频文件进入队列，Batch会自动启动实例、开始处理并将转录结果返回到S3存储桶。

经济性令人信服：按需模式下每分钟音频0.00011美元，Spot实例下仅0.00005美元。具体来说，Spot模式下一小时音频的费用约为0.3美分，比商业转录API便宜一个数量级。博客文章明确指出，Spot实例与缩减至零相结合大幅降低了固定成本，尤其对于偶尔处理大型档案的组织而言。

长录音的缓冲流式传输与处理速度

语音模型的技术挑战之一是上下文长度有限，需要手动将长录音分割成片段。AWS在这份参考架构中实现了缓冲流式传输机制，无需手动切割即可处理超过十小时的音频录音。模型以滑动窗口处理音频，并在逻辑边界处合并转录结果，这对播客、长篇讲座和会议录音至关重要。

在速度方面，报告显示平均处理时间为每分钟输入音频0.49秒，即在单个GPU上大约比实时速度快120倍。这意味着Parakeet-TDT在约5分钟内即可处理十小时音频，Spot模式下费用约为0.03美元。对于媒体机构、法律事务所或转录团队，这样的速度和成本改变了商业模式——转录不再是瓶颈，而几乎成为流水线中的免费步骤。

AWS与NVIDIA Parakeet-TDT以每分钟0.00005美元的价格实现25种语言转录

支持25种语言自动检测的开源模型

AWS Batch与缩减至零的经济效益

长录音的缓冲流式传输与处理速度

来源

相关新闻