SAGA：64-GPUクラスターでエージェントスケジューリング1.64倍高速化

Q: SAGAの文脈で「ワークフロー原子化」とは何を意味しますか？

スケジューラーが各LLM呼び出しを独立したリクエストとして扱い（その都度GBsの中間状態を破棄する）のではなく、SAGAはエージェントワークフロー全体を不可分な単位として扱います。これにより、KVキャッシュ予測、セッションアフィニティバッチング、より良いGPUメモリ利用が可能になります。

Q: 主な技術的成果は何ですか？

タスク完了時間の幾何平均1.64倍削減（p<0.001）、KVキャッシュでBélády最適の1.31倍、GPU메모리利用率1.22倍改善、SLO達成率99.2%。トレードオフとして、バッチスケジューリングと比較してピークスループットが約30%低下します。

Q: この論文はどこで発表されますか？

HPDC 2026——第35回高性能並列分散コンピューティング国際シンポジウム、2026年7月13-16日、オハイオ州クリーブランド。論文はArXivでID 2605.00528として公開されています。

Dongxin Guo、Jikun Wu、Siu Ming Yiuのチームは2026年5月1日、SAGA——GPUクラスター上のAIエージェント向けワークフロー原子化スケジューラーを発表しました。個々のLLM呼び出しではなく、エージェントのワークフロー全体を単一のスケジュール可能な単位として扱います。64-GPUクラスターでタスク完了時間の幾何平均1.64倍削減、マルチテナント負荷下でSLO達成率99.2%を実現します。論文はHPDC 2026（クリーブランド、2026年7月13-16日）に採択されました。

Dongxin Guo、Jikun Wu、Siu Ming Yiuのチームは2026年5月1日にArXivで論文**「SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters」**を発表しました。この論文はHPDC 2026（第35回高性能並列分散コンピューティング国際シンポジウム、2026年7月13-16日、クリーブランド）に採択されています。

SAGAはどのような問題を解決するか？

既存のGPUスケジューラーはLLMへの各APIコールを独立したリクエストとして扱い、コール終了後にGBsの中間状態（KVキャッシュ、アテンションコンテキスト、スクラッチメモリ）を破棄します。これはAIエージェントにとって非効率です。単一のワークフローは通常、大量のコンテキストを共有する数十の連続したコールを含むためです。

著者らはこの問題を次のように表現しています：「GPUスケジューラーは各コールを独立したものとして扱い、GBsの中間状態を破棄する」。その結果、数秒で完了するはずのエージェントがメモリに残すべき状態を絶えずリロードするため、数分かかることがあります。

システムはどのように問題を解決するか？

SAGAはエージェントワークフロー全体をスケジューリングの原子的単位として扱います。技術的には、3つの主要なメカニズムを使用しています：

エージェント実行グラフ（Agent Execution Graphs） — ワークフロー内の依存関係モデルで、後で必要となるKVキャッシュページを予測可能にする
セッションアフィニティバッチング（Session-affinity batching） — 状態を失わずにGPU間で負荷を分散させながら相関するリクエストを共存させる
公平性メカニズム — 長時間実行される単一のワークフローが他のテナントをブロックするのを防ぐ

KVキャッシュ予測はBéládyの最適オフラインアルゴリズムの1.31倍を達成しています——Béládyのアルゴリズムは未来を知っている理想的なキャッシュ置換の理論的上限です。オンライン（未来を知らずに）でそれの1.31倍を達成することは重大な成果です。

改善効果はどのくらいか？

64-GPUクラスターでの実験では以下の結果が示されました：

タスク完了時間の幾何平均1.64倍削減（統計的有意、p<0.001）
GPU메モリ利用率1.22倍改善 — 未使用のKVキャッシュページへの無駄の削減
マルチテナント負荷下でのSLO達成率99.2%（Service Level Objective——合意された遅延境界）

トレードオフとして、従来のバッチスケジューリングと比較してピークスループットが約30%低下します。これは予想されるトレードオフです：システムは生のスループットを犠牲にして、より良いタスク完了時間とメモリ利用率を実現します。ユーザーがワークフロー全体の応答を待つエージェントワークロードでは、タスク完了時間はピークスループットよりも有用な指標です。

これはエージェントシステムの運用者にとって何を意味するか？

商業的な影響は大きいです：AWS、Azure、またはGoogle CloudがそのGPUプールでワークフロー原子化スケジューリングを採用すれば、エージェントシステムのインフラコストが1.64倍のスピードアップと同様のオーダーで削減される可能性があります。毎月エージェント推論に数万ドルを費やしているエンタープライズにとって、これはビルドと購入の意思決定に影響を与えるほど重要です。

論文はArXivでID 2605.00528として公開されています。

よくある質問

SAGAの文脈で「ワークフロー原子化」とは何を意味しますか？

スケジューラーが各LLM呼び出しを独立したリクエストとして扱い（その都度GBsの中間状態を破棄する）のではなく、SAGAはエージェントワークフロー全体を不可分な単位として扱います。これにより、KVキャッシュ予測、セッションアフィニティバッチング、より良いGPUメモリ利用が可能になります。

主な技術的成果は何ですか？