新しいSageMakerの機能が解決する問題は何ですか？

生成AIモデルを本番環境にデプロイするには、GPUタイプ、インスタンス数、バッチサイズ、最適化設定の選択が必要です。すべての組み合わせを手動でテストするには数週間かかります。SageMaker AIはこのプロセスを自動化し、数週間ではなく数時間で推奨設定を提供します。

NVIDIA AIPerf とは何で、どのように使われますか？

NVIDIA AIPerf はAIモデルのパフォーマンスを測定するツールで、合成クエリを生成してレイテンシ、スループット、コストを測定します。SageMaker AIは様々なGPU設定（H100、A100、L4）にわたって内部的にこれを呼び出し、結果を比較表に自動保存します。

推奨設定はどのような基準でランク付けされますか？

推奨設定は3つの基準でランク付けできます。推論呼び出しあたりの総コスト、最初から最後のトークンまでのレイテンシ、1秒あたりの最大リクエストスループットです。チームは優先事項に合った設定を選べます——バッチ処理にはより安価なものを、インタラクティブなアプリには高速なものを。

SageMaker：自動GenAI推論レコメンデーション

数週間の手動テストの終わり

Amazon SageMaker AIは、様々なGPU設定で生成AIモデルを自動的にベンチマークする新機能を獲得しました。チームがH100、A100、L4などのGPUタイプを異なるバッチサイズや最適化オプションと手動で組み合わせてテストする代わりに、SageMakerは数時間で有効なデプロイ設定のリストを生成します。

この機能はバックグラウンドでNVIDIA AIPerf ツールを使用します。AIPerf は実際の負荷をシミュレートする合成クエリを生成し、最初から最後のトークンまでのレイテンシを測定し、1秒あたりのリクエストスループットを計算します。SageMakerは複数の設定にわたって並行してテストを実行し、結果を1つの比較表にまとめます。

3つのランキング基準

結果はビジネス上の優先事項に応じて3つの異なる基準でランク付けできます。最初の基準は、インスタンス価格と平均レスポンス生成時間の組み合わせで計算される推論呼び出しあたりの総コストです。これはクエリ量が多いアプリケーションにとって重要です。

2番目の基準はレイテンシです。チャットボットなどのインタラクティブなアプリケーションは、高速なtime-to-first-tokenと一貫した生成速度を必要とします。3番目の基準は最大スループット——設定がどのくらいの並行リクエストを処理できるかがです。バッチクエリやデータを処理するアプリケーションに役立ちます。

MLOpsチームへの実際のメリット

本番環境へのデプロイプロセスは通常このようになります。チームがモデルを選択し、ハードウェアの最初の見積もりをし、ロードテストを実行し、パフォーマンスの問題を発見し、設定を変更し、テストを繰り返します。このループが数週間続きます。新しいSageMaker機能は、1回のパスで関連する設定のほとんどをカバーするため、この反復を排除します。

重要な詳細は、SageMakerが1つの「最良」の設定だけでなく、ランキング付きのリスト全体を返すことです。チームはコストとレイテンシのトレードオフを確認して情報に基づいた決定を下せます。たとえば、20%安いが30%遅い設定が特定のアプリケーションには許容できる場合もあります。

既存ワークフローとの統合

この機能は既存のSageMaker AIワークフローに統合されています。ユーザーはモデルと制約——たとえば「呼び出しあたり最大コスト0.01ドル」や「レイテンシ500ms以下」——を渡し、SageMakerは基準を満たす設定を返します。結果には直接起動できるエンドポイント設定が含まれています。

これはGPUアーキテクチャの深い知識を持つ経験豊富なエンジニアをこれまで必要としていたMLOps上の意思決定の具体的な自動化です。そのような専門家を持たない企業にとって、この機能は最適なデプロイ設定へのアクセスを民主化します。

AWS SageMakerが生成AIモデルを自動ベンチマークし最適な推論設定を提供

数週間の手動テストの終わり

3つのランキング基準

MLOpsチームへの実際のメリット

既存ワークフローとの統合

出典

関連ニュース