SAGA：64-GPU集群上智能体调度提速1.64倍

Q: 在SAGA的背景下，「工作流原子化」是什么意思？

调度器不是独立处理每次LLM调用（并在调用之间丢弃数GB的中间状态），而是将整个智能体工作流视为一个不可分割的单元。这使得KV缓存预测、会话亲和性批处理和更好的GPU内存利用成为可能。

Q: 关键技术成果是什么？

任务完成时间的几何平均缩减1.64倍（p<0.001），超越Bélády最优的1.31倍KV缓存效率，GPU内存利用率提升1.22倍，SLO达成率99.2%。代价是与批调度相比峰值吞吐量约低30%。

Q: 论文将在哪里发表？

HPDC 2026——第35届高性能并行与分布式计算国际研讨会，2026年7月13-16日，美国俄亥俄州克利夫兰。论文在ArXiv上的ID为2605.00528。

Dongxin Guo、Jikun Wu和Siu Ming Yiu团队于2026年5月1日发布了SAGA——一种面向GPU集群上AI智能体的工作流原子化调度器，将整个智能体工作流视为单个可调度单元而非单次LLM调用。该系统在64-GPU集群上实现任务完成时间1.64倍的几何平均缩减，在多租户负载下SLO达成率为99.2%。论文已被HPDC 2026（克利夫兰，2026年7月13-16日）接收。

Dongxin Guo、Jikun Wu和Siu Ming Yiu团队于2026年5月1日在ArXiv上发布了论文**《SAGA：GPU集群上AI智能体推理的工作流原子化调度》**。该论文已被HPDC 2026（第35届高性能并行与分布式计算国际研讨会，2026年7月13-16日，克利夫兰）接收。

SAGA解决什么问题？

现有的GPU调度器将每次API调用视为独立请求，这意味着调用结束后会丢弃数GB的中间状态（KV缓存、注意力上下文、临时内存）。这对于AI智能体来说是次优的，因为单个工作流通常包含几十个连续调用，共享大量上下文。

作者如此描述这一问题：「GPU调度器将每次调用视为独立的，丢弃GB级的中间状态」。其结果是，原本应该持续几秒钟的智能体往往运行数分钟，因为调度器不断重新加载本应保留在内存中的状态。

系统如何解决这一问题？

SAGA将整个智能体工作流视为调度的原子单元。技术上，该系统使用三个关键机制：

智能体执行图（Agent Execution Graphs） — 工作流内部的依赖模型，使预测后续需要哪些KV缓存页面成为可能
会话亲和性批处理（Session-affinity batching） — 协同定位相关请求，在GPU之间平衡负载而不丢失状态
公平性机制 — 防止单个长时间运行的工作流阻塞其他租户

KV缓存预测实现了超越Bélády最优离线算法1.31倍的效果——Bélády算法是理论上已知未来的理想缓存替换的上限。在线（不知道未来）实现1.31倍是一项重大成就。

改进幅度有多大？

在64-GPU集群上的实验显示：

任务完成时间几何平均缩减1.64倍（统计显著，p<0.001）
GPU内存利用率提升1.22倍 — 减少对未使用KV缓存页面的浪费
在多租户负载下SLO达成率99.2%（服务等级目标——约定的延迟边界）

代价是与经典批调度相比峰值吞吐量约低30%。这是预期的权衡：系统以较低的原始吞吐量换取更好的任务完成时间和内存利用率。对于用户等待整个工作流响应的智能体工作负载，任务完成时间比峰值吞吐量是更有用的指标。

这对智能体系统运营者意味着什么？

商业影响是显著的：如果AWS、Azure或Google Cloud在其GPU池中采用工作流原子化调度，智能体系统的基础设施成本可能以类似1.64倍加速的量级下降。对于每月在智能体推理上花费数万美元的企业来说，这已足以影响自建与购买的决策。

论文在ArXiv上的ID为2605.00528。

常见问题

在SAGA的背景下，「工作流原子化」是什么意思？

调度器不是独立处理每次LLM调用（并在调用之间丢弃数GB的中间状态），而是将整个智能体工作流视为一个不可分割的单元。这使得KV缓存预测、会话亲和性批处理和更好的GPU内存利用成为可能。

关键技术成果是什么？