AWS Nova MicroによるText-to-SQL:LoRAファインチューニング+サーバーレスBedrockで月0.80ドル
なぜ重要か
AWSは、Amazon Nova MicroモデルのLoRAファインチューニングとサーバーレスBedrockオンデマンド推論を組み合わせることで、月2万2千件のSQLクエリをわずか0.80ドルでカバーできることを実証しました。トレーニングコストはBedrock Customizationで8ドル、SageMakerで65ドルです。このアプローチはモデルの継続ホスティングコストを排除し、変動する本番ワークロードに最適です。
2026年4月16日、Amazon Web ServicesはLoRAファインチューニングとBedrockオンデマンド推論を使用したNova MicroによるText-to-SQLシステムの構築に関する詳細なケーススタディを発表しました。著者のZeek GranstonとFelipe Lopezは二つの並行実装を示しています——一つはAmazon Bedrock Customizationを通じて、もう一つはSageMaker AIを通じて——そして各アプローチの明確なコスト計算を提供しています。
なぜLoRA+サーバーレスなのか
カスタムSQL生成の従来のセルフホストアプローチは継続的なインフラを必要とします——使用状況に関わらず24時間365日稼働するGPUインスタンス。SQLが散発的に生成される内部BIツールの場合、これは大きな無駄です。
**低ランク適応(LoRA)**はベースモデルの上に小さな追加パラメータ層のみをファインチューニングすることを可能にします。サーバーレス推論と組み合わせると、トークンのみ支払います——システムがアイドル状態のときは固定コストなし。AWSはこのアプローチを「継続的なモデルホスティングコストなしのカスタムText-to-SQL」と説明しています。
具体的なコスト
投稿はAWSの技術資料では珍しい精確な経済分析を提供しています:
一度きりのトレーニングコスト:
- Bedrock Customization:8.00ドル(2,000例、5エポック)
- SageMaker AI:65.15ドル(ml.g5.48xlargeでの4時間ジョブ)
月2万2千クエリの本番ワークロード:
- 入力コスト:0.616ドル
- 出力コスト:0.184ドル
- 月額合計:0.80ドル
差は劇的で、どのような形のセルフホスティングとも比べられます——GPUインスタンスだけでも、クエリ数に関わらず月数百ドルかかります。
技術ハイパーパラメータ
著者はBedrockを通じて機能した具体的な設定を共有しています:
- エポック数: 5
- 学習率: 0.00001
- ウォームアップステップ: 10
- トレーニング時間: 2〜3時間
トレーニングデータは7万8千以上の自然言語とSQLクエリのペアを含む公開sql-create-contextデータセットからのものでした。トレーニングと検証の損失曲線は一貫して低下して収束しています——過学習のない安定したファインチューニングの指標です。
レイテンシのコスト
無料のランチはありません。LoRAアダプターは推論時にオーバーヘッドを追加します:
- コールドスタートTTFT(初回トークンまでの時間):639ms(ベースモデルより34%高い)
- ウォームスタートTTFT:380ms(7%高い)
- トークン生成率:約毎秒183トークン(ベースモデルより27%低い)
- エンドツーエンドレスポンス:約477ms
AWSはこのレイテンシを「インタラクティブアプリケーションにとっても非常に適切」と説明しています——これは慎重に解釈する必要があるdescriptionです。ユーザーが入力している間にSQLが生成されるUIの場合、追加の約30%のレイテンシは許容範囲内です。バッチ処理で数百のクエリを一度に生成する場合、累積オーバーヘッドは相当なものになる可能性があります。
このアプローチをいつ使うか
AWSは明示的にコストが絶対的な速度よりも優先される変動ワークロードをターゲットにしています。典型的なシナリオには、企業の内部BIツール、レガシーデータベース向けチャットアシスタント、継続的ではなく散発的に使用される分析ツールが含まれます。高く予測可能な量のシステムの場合、専用ホスティングの方が依然として経済的です。
この記事はAIにより一次情報源から生成されました。