AWS Nova Micro用于Text-to-SQL:LoRA微调+无服务器Bedrock每月仅需0.80美元
为什么重要
AWS演示了如何将Amazon Nova Micro模型的LoRA微调与无服务器Bedrock按需推理相结合,每月仅需0.80美元即可处理22000个SQL查询。训练费用通过Bedrock Customization为8美元,通过SageMaker为65美元。这种方法消除了持续托管模型的成本,适合工作量可变的生产环境。
2026年4月16日,Amazon Web Services发布了关于使用Nova Micro结合LoRA微调和Bedrock按需推理构建Text-to-SQL系统的详细案例研究。作者Zeek Granston和Felipe Lopez展示了两种并行实现——一种通过Amazon Bedrock Customization,另一种通过SageMaker AI——并为每种方法提供了清晰的成本计算。
为何选择LoRA+无服务器?
自定义SQL生成的传统自托管方法需要持续的基础设施——无论使用情况如何,GPU实例24/7运行。对于SQL偶尔生成的内部BI工具,这是巨大的浪费。
**低秩适应(LoRA)**允许仅对基础模型顶部的小型附加参数层进行微调。与无服务器推理结合时,您只按令牌付费——系统空闲时没有固定成本。AWS将这种方法描述为”无需持续托管模型成本的自定义Text-to-SQL”。
具体成本
文章提供了AWS技术材料中罕见的精确经济分析:
一次性训练成本:
- Bedrock Customization:8.00美元(2000个示例,5个周期)
- SageMaker AI:65.15美元(ml.g5.48xlarge上的4小时任务)
每月22,000个查询的生产工作量:
- 输入成本:0.616美元
- 输出成本:0.184美元
- 每月总计:0.80美元
与任何形式的自托管相比,差距是巨大的,即使是GPU实例每月也需花费数百美元,无论查询数量多少。
技术超参数
作者分享了通过Bedrock有效运行的具体配置:
- 周期数: 5
- 学习率: 0.00001
- 预热步数: 10
- 训练时长: 2-3小时
训练数据来自公共sql-create-context数据集,包含78,000多对自然语言和SQL查询。训练和验证损失曲线持续下降并收敛——表明微调稳定且无过拟合。
延迟代价
没有免费的午餐。LoRA适配器在推理时增加了开销:
- 冷启动TTFT(首令牌时间):639毫秒(比基础模型高34%)
- 热启动TTFT:380毫秒(高7%)
- 令牌生成率:约每秒183个令牌(比基础模型低27%)
- 端到端响应:约477毫秒
AWS将这种延迟描述为”对于交互式应用仍然非常合适”,这需要仔细解读。对于用户键入时生成SQL的用户界面,额外约30%的延迟是可以接受的。对于一次生成数百个查询的批处理过程,累积开销可能很显著。
何时使用此方法
AWS明确针对工作量可变、成本优先于绝对速度的场景。典型用例包括企业内部BI工具、针对遗留数据库的聊天助手,以及偶尔而非持续使用的分析工具。对于高且可预测量的系统,专用托管在经济上仍然更合理。
本文由人工智能基于一手来源生成。