🤖 24 AI
🟡 🏥 実践 2026年4月17日金曜日 · 3 分で読めます

AWS Nova MicroによるText-to-SQL:LoRAファインチューニング+サーバーレスBedrockで月0.80ドル

なぜ重要か

AWSは、Amazon Nova MicroモデルのLoRAファインチューニングとサーバーレスBedrockオンデマンド推論を組み合わせることで、月2万2千件のSQLクエリをわずか0.80ドルでカバーできることを実証しました。トレーニングコストはBedrock Customizationで8ドル、SageMakerで65ドルです。このアプローチはモデルの継続ホスティングコストを排除し、変動する本番ワークロードに最適です。

2026年4月16日、Amazon Web ServicesはLoRAファインチューニングとBedrockオンデマンド推論を使用したNova MicroによるText-to-SQLシステムの構築に関する詳細なケーススタディを発表しました。著者のZeek GranstonとFelipe Lopezは二つの並行実装を示しています——一つはAmazon Bedrock Customizationを通じて、もう一つはSageMaker AIを通じて——そして各アプローチの明確なコスト計算を提供しています。

なぜLoRA+サーバーレスなのか

カスタムSQL生成の従来のセルフホストアプローチは継続的なインフラを必要とします——使用状況に関わらず24時間365日稼働するGPUインスタンス。SQLが散発的に生成される内部BIツールの場合、これは大きな無駄です。

**低ランク適応(LoRA)**はベースモデルの上に小さな追加パラメータ層のみをファインチューニングすることを可能にします。サーバーレス推論と組み合わせると、トークンのみ支払います——システムがアイドル状態のときは固定コストなし。AWSはこのアプローチを「継続的なモデルホスティングコストなしのカスタムText-to-SQL」と説明しています。

具体的なコスト

投稿はAWSの技術資料では珍しい精確な経済分析を提供しています:

一度きりのトレーニングコスト:

  • Bedrock Customization:8.00ドル(2,000例、5エポック)
  • SageMaker AI:65.15ドル(ml.g5.48xlargeでの4時間ジョブ)

月2万2千クエリの本番ワークロード:

  • 入力コスト:0.616ドル
  • 出力コスト:0.184ドル
  • 月額合計:0.80ドル

差は劇的で、どのような形のセルフホスティングとも比べられます——GPUインスタンスだけでも、クエリ数に関わらず月数百ドルかかります。

技術ハイパーパラメータ

著者はBedrockを通じて機能した具体的な設定を共有しています:

  • エポック数: 5
  • 学習率: 0.00001
  • ウォームアップステップ: 10
  • トレーニング時間: 2〜3時間

トレーニングデータは7万8千以上の自然言語とSQLクエリのペアを含む公開sql-create-contextデータセットからのものでした。トレーニングと検証の損失曲線は一貫して低下して収束しています——過学習のない安定したファインチューニングの指標です。

レイテンシのコスト

無料のランチはありません。LoRAアダプターは推論時にオーバーヘッドを追加します:

  • コールドスタートTTFT(初回トークンまでの時間):639ms(ベースモデルより34%高い)
  • ウォームスタートTTFT:380ms(7%高い)
  • トークン生成率:約毎秒183トークン(ベースモデルより27%低い)
  • エンドツーエンドレスポンス:約477ms

AWSはこのレイテンシを「インタラクティブアプリケーションにとっても非常に適切」と説明しています——これは慎重に解釈する必要があるdescriptionです。ユーザーが入力している間にSQLが生成されるUIの場合、追加の約30%のレイテンシは許容範囲内です。バッチ処理で数百のクエリを一度に生成する場合、累積オーバーヘッドは相当なものになる可能性があります。

このアプローチをいつ使うか

AWSは明示的にコストが絶対的な速度よりも優先される変動ワークロードをターゲットにしています。典型的なシナリオには、企業の内部BIツール、レガシーデータベース向けチャットアシスタント、継続的ではなく散発的に使用される分析ツールが含まれます。高く予測可能な量のシステムの場合、専用ホスティングの方が依然として経済的です。

🤖

この記事はAIにより一次情報源から生成されました。