ファインチューニングにおけるBedrock CustomizationとSageMakerの違いは何ですか？

Bedrock Customizationはインフラの懸念を最小化するマネージドサービスです——2,000例のトレーニングで8ドルかかります。SageMakerはハイパーパラメータとインスタンスタイプの細かな制御を提供します——同じ作業でml.g5.48xlargeインスタンスのために65ドルかかります。

LoRA+サーバーレスアプローチのトレードオフは何ですか？

レイテンシが増加します——コールドスタートTTFTは639ms（ベースモデルより34%高い）、ウォームスタートは380ms（7%高い）。トークン生成率は毎秒183トークンに低下します（27%の低下）。代わりに固定インフラコストがありません。

このセットアップを典型的に使用するのは誰ですか？

使用状況に関係なくセルフホストモデルにコストがかかるような変動ワークロードを持つ企業です。LoRA+サーバーレスは内部BIツール、レガシーデータベース向けチャットアシスタント、継続的ではなく散発的に使用されるSQLインターフェースに最適です。

AWS Nova MicroによるText-to-SQL：LoRAファインチューニング+サーバーレスBedrockで月0.80ドル

2026年4月16日、Amazon Web ServicesはLoRAファインチューニングとBedrockオンデマンド推論を使用したNova MicroによるText-to-SQLシステムの構築に関する詳細なケーススタディを発表しました。著者のZeek GranstonとFelipe Lopezは二つの並行実装を示しています——一つはAmazon Bedrock Customizationを通じて、もう一つはSageMaker AIを通じて——そして各アプローチの明確なコスト計算を提供しています。

なぜLoRA+サーバーレスなのか

カスタムSQL生成の従来のセルフホストアプローチは継続的なインフラを必要とします——使用状況に関わらず24時間365日稼働するGPUインスタンス。SQLが散発的に生成される内部BIツールの場合、これは大きな無駄です。

**低ランク適応（LoRA）**はベースモデルの上に小さな追加パラメータ層のみをファインチューニングすることを可能にします。サーバーレス推論と組み合わせると、トークンのみ支払います——システムがアイドル状態のときは固定コストなし。AWSはこのアプローチを「継続的なモデルホスティングコストなしのカスタムText-to-SQL」と説明しています。

具体的なコスト

投稿はAWSの技術資料では珍しい精確な経済分析を提供しています：

一度きりのトレーニングコスト：

Bedrock Customization：8.00ドル（2,000例、5エポック）
SageMaker AI：65.15ドル（ml.g5.48xlargeでの4時間ジョブ）

月2万2千クエリの本番ワークロード：

入力コスト：0.616ドル
出力コスト：0.184ドル
月額合計：0.80ドル

差は劇的で、どのような形のセルフホスティングとも比べられます——GPUインスタンスだけでも、クエリ数に関わらず月数百ドルかかります。

技術ハイパーパラメータ

著者はBedrockを通じて機能した具体的な設定を共有しています：

エポック数： 5
学習率： 0.00001
ウォームアップステップ： 10
トレーニング時間： 2〜3時間

トレーニングデータは7万8千以上の自然言語とSQLクエリのペアを含む公開sql-create-contextデータセットからのものでした。トレーニングと検証の損失曲線は一貫して低下して収束しています——過学習のない安定したファインチューニングの指標です。

レイテンシのコスト

無料のランチはありません。LoRAアダプターは推論時にオーバーヘッドを追加します：

コールドスタートTTFT（初回トークンまでの時間）：639ms（ベースモデルより34%高い）
ウォームスタートTTFT：380ms（7%高い）
トークン生成率：約毎秒183トークン（ベースモデルより27%低い）
エンドツーエンドレスポンス：約477ms

AWSはこのレイテンシを「インタラクティブアプリケーションにとっても非常に適切」と説明しています——これは慎重に解釈する必要があるdescriptionです。ユーザーが入力している間にSQLが生成されるUIの場合、追加の約30%のレイテンシは許容範囲内です。バッチ処理で数百のクエリを一度に生成する場合、累積オーバーヘッドは相当なものになる可能性があります。

このアプローチをいつ使うか

AWSは明示的にコストが絶対的な速度よりも優先される変動ワークロードをターゲットにしています。典型的なシナリオには、企業の内部BIツール、レガシーデータベース向けチャットアシスタント、継続的ではなく散発的に使用される分析ツールが含まれます。高く予測可能な量のシステムの場合、専用ホスティングの方が依然として経済的です。