🟡 🔧 硬件 2026年5月5日星期二 · 2 分钟阅读 ·

ArXiv SAGA:AI智能体的工作流原子化GPU调度在64-GPU集群上实现1.64倍任务完成提速,被HPDC 2026接收

编辑插图:GPU集群与作为原子单元连接的智能体工作流,调度的象征

Dongxin Guo、Jikun Wu和Siu Ming Yiu团队于2026年5月1日发布了SAGA——一种面向GPU集群上AI智能体的工作流原子化调度器,将整个智能体工作流视为单个可调度单元而非单次LLM调用。该系统在64-GPU集群上实现任务完成时间1.64倍的几何平均缩减,在多租户负载下SLO达成率为99.2%。论文已被HPDC 2026(克利夫兰,2026年7月13-16日)接收。

🤖

本文由人工智能基于一手来源生成。

Dongxin Guo、Jikun Wu和Siu Ming Yiu团队于2026年5月1日在ArXiv上发布了论文**《SAGA:GPU集群上AI智能体推理的工作流原子化调度》**。该论文已被HPDC 2026(第35届高性能并行与分布式计算国际研讨会,2026年7月13-16日,克利夫兰)接收。

SAGA解决什么问题?

现有的GPU调度器将每次API调用视为独立请求,这意味着调用结束后会丢弃数GB的中间状态(KV缓存、注意力上下文、临时内存)。这对于AI智能体来说是次优的,因为单个工作流通常包含几十个连续调用,共享大量上下文。

作者如此描述这一问题:「GPU调度器将每次调用视为独立的,丢弃GB级的中间状态」。其结果是,原本应该持续几秒钟的智能体往往运行数分钟,因为调度器不断重新加载本应保留在内存中的状态。

系统如何解决这一问题?

SAGA将整个智能体工作流视为调度的原子单元。技术上,该系统使用三个关键机制:

  • 智能体执行图(Agent Execution Graphs) — 工作流内部的依赖模型,使预测后续需要哪些KV缓存页面成为可能
  • 会话亲和性批处理(Session-affinity batching) — 协同定位相关请求,在GPU之间平衡负载而不丢失状态
  • 公平性机制 — 防止单个长时间运行的工作流阻塞其他租户

KV缓存预测实现了超越Bélády最优离线算法1.31倍的效果——Bélády算法是理论上已知未来的理想缓存替换的上限。在线(不知道未来)实现1.31倍是一项重大成就。

改进幅度有多大?

64-GPU集群上的实验显示:

  • 任务完成时间几何平均缩减1.64倍(统计显著,p<0.001)
  • GPU内存利用率提升1.22倍 — 减少对未使用KV缓存页面的浪费
  • 在多租户负载下SLO达成率99.2%(服务等级目标——约定的延迟边界)

代价是与经典批调度相比峰值吞吐量约低30%。这是预期的权衡:系统以较低的原始吞吐量换取更好的任务完成时间和内存利用率。对于用户等待整个工作流响应的智能体工作负载,任务完成时间比峰值吞吐量是更有用的指标。

这对智能体系统运营者意味着什么?

商业影响是显著的:如果AWS、Azure或Google Cloud在其GPU池中采用工作流原子化调度,智能体系统的基础设施成本可能以类似1.64倍加速的量级下降。对于每月在智能体推理上花费数万美元的企业来说,这已足以影响自建与购买的决策。

论文在ArXiv上的ID为2605.00528。

常见问题

在SAGA的背景下,「工作流原子化」是什么意思?
调度器不是独立处理每次LLM调用(并在调用之间丢弃数GB的中间状态),而是将整个智能体工作流视为一个不可分割的单元。这使得KV缓存预测、会话亲和性批处理和更好的GPU内存利用成为可能。
关键技术成果是什么?
任务完成时间的几何平均缩减1.64倍(p<0.001),超越Bélády最优的1.31倍KV缓存效率,GPU内存利用率提升1.22倍,SLO达成率99.2%。代价是与批调度相比峰值吞吐量约低30%。
论文将在哪里发表?
HPDC 2026——第35届高性能并行与分布式计算国际研讨会,2026年7月13-16日,美国俄亥俄州克利夫兰。论文在ArXiv上的ID为2605.00528。