Bedrock Customization和SageMaker微调有何区别？

Bedrock Customization是托管服务，将基础设施工作最小化——2000个示例训练费用8美元。SageMaker提供超参数和实例类型的精细控制——相同工作由于使用ml.g5.48xlarge实例需花费65美元。

LoRA+无服务器方法的权衡是什么？

延迟增加——冷启动TTFT为639毫秒（比基础模型高34%），热启动为380毫秒（高7%）。令牌生成率下降至每秒183个令牌（下降27%）。作为交换，没有固定的基础设施支出。

谁通常使用这种设置？

工作量可变的公司，自托管模型无论使用情况如何都会产生费用。LoRA+无服务器非常适合内部BI工具、内部聊天助手和偶尔使用的SQL接口。

AWS Nova Micro用于Text-to-SQL：LoRA微调+无服务器Bedrock每月仅需0.80美元

2026年4月16日，Amazon Web Services发布了关于使用Nova Micro结合LoRA微调和Bedrock按需推理构建Text-to-SQL系统的详细案例研究。作者Zeek Granston和Felipe Lopez展示了两种并行实现——一种通过Amazon Bedrock Customization，另一种通过SageMaker AI——并为每种方法提供了清晰的成本计算。

为何选择LoRA+无服务器？

自定义SQL生成的传统自托管方法需要持续的基础设施——无论使用情况如何，GPU实例24/7运行。对于SQL偶尔生成的内部BI工具，这是巨大的浪费。

**低秩适应（LoRA）**允许仅对基础模型顶部的小型附加参数层进行微调。与无服务器推理结合时，您只按令牌付费——系统空闲时没有固定成本。AWS将这种方法描述为”无需持续托管模型成本的自定义Text-to-SQL”。

具体成本

文章提供了AWS技术材料中罕见的精确经济分析：

一次性训练成本：

Bedrock Customization：8.00美元（2000个示例，5个周期）
SageMaker AI：65.15美元（ml.g5.48xlarge上的4小时任务）

每月22,000个查询的生产工作量：

输入成本：0.616美元
输出成本：0.184美元
每月总计：0.80美元

与任何形式的自托管相比，差距是巨大的，即使是GPU实例每月也需花费数百美元，无论查询数量多少。

技术超参数

作者分享了通过Bedrock有效运行的具体配置：

周期数： 5
学习率： 0.00001
预热步数： 10
训练时长： 2-3小时

训练数据来自公共sql-create-context数据集，包含78,000多对自然语言和SQL查询。训练和验证损失曲线持续下降并收敛——表明微调稳定且无过拟合。

延迟代价

没有免费的午餐。LoRA适配器在推理时增加了开销：

冷启动TTFT（首令牌时间）：639毫秒（比基础模型高34%）
热启动TTFT：380毫秒（高7%）
令牌生成率：约每秒183个令牌（比基础模型低27%）
端到端响应：约477毫秒

AWS将这种延迟描述为”对于交互式应用仍然非常合适”，这需要仔细解读。对于用户键入时生成SQL的用户界面，额外约30%的延迟是可以接受的。对于一次生成数百个查询的批处理过程，累积开销可能很显著。

何时使用此方法

AWS明确针对工作量可变、成本优先于绝对速度的场景。典型用例包括企业内部BI工具、针对遗留数据库的聊天助手，以及偶尔而非持续使用的分析工具。对于高且可预测量的系统，专用托管在经济上仍然更合理。