🟡 🔧 Hardware utorak, 5. svibnja 2026. · 3 min čitanja ·

ArXiv SAGA: workflow-atomic GPU scheduling za AI agente postiže 1,64× brže task completion na 64-GPU klasteru, prihvaćeno na HPDC 2026

Editorial ilustracija: GPU klaster s povezanim agentnim workflow-ovima kao atomarnim jedinicama, simbolika scheduling-a

Tim Dongxin Guo, Jikun Wu i Siu Ming Yiu predstavio je 1. svibnja 2026. SAGA — workflow-atomic raspoređivač za AI agente na GPU klasterima koji tretira cijeli agent workflow kao jednu schedulable jedinicu umjesto pojedinačnih LLM poziva. Sustav postiže 1,64× geometrijsku sredinu smanjenja task completion vremena na 64-GPU klasteru i 99,2 % SLO postizanje pod multi-tenant opterećenjem. Rad je prihvaćen na HPDC 2026 u Clevelandu (13.-16. srpnja 2026.).

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Tim Dongxin Guo, Jikun Wu i Siu Ming Yiu objavio je 1. svibnja 2026. na ArXiv-u rad “SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters”. Rad je prihvaćen na HPDC 2026 (35. International Symposium on High-Performance Parallel and Distributed Computing, 13.-16. srpnja 2026. u Clevelandu).

Koji problem SAGA rješava?

Postojeći GPU scheduleri tretiraju svaki API poziv prema LLM-u kao neovisan zahtjev, što znači da nakon završetka poziva odbacuju gigabajte intermediate state-a (KV cache, attention contexts, scratch memory). To je suboptimalno za AI agente, gdje jedan workflow tipično obuhvaća desetke uzastopnih poziva koji dijele veliku količinu konteksta.

Autori formuliraju problem ovako: “GPU schedulers treat each call as independent, discarding gigabytes of intermediate state”. Posljedica je da agent koji bi trebao trajati nekoliko sekundi često radi minutama jer scheduler stalno re-loadira state koji je trebao ostati u memoriji.

Kako sustav adresira problem?

SAGA tretira cijeli agent workflow kao atomarnu jedinicu raspoređivanja. Tehnički, sustav koristi tri ključna mehanizma:

  • Agent Execution Graphs — modeli zavisnosti unutar workflowa koji omogućuju predviđanje koje će KV cache stranice biti potrebne kasnije
  • Session-affinity batching — co-locira korelacijske zahtjeve, balansirajući opterećenje između GPU-ova bez gubljenja state-a
  • Mehanizmi pravednosti — sprječavaju da jedan dugotrajni workflow blokira ostale tenant-e

KV cache predviđanje postiže 1,31× Bélády optimalnog offline-a — Bélády’s algorithm je teorijska gornja granica idealnog cache replacement-a koji zna budućnost. Postizanje 1,31× toga online (bez znanja budućnosti) je značajno postignuće.

Koliko su poboljšanja velika?

Eksperimenti na 64-GPU klasteru pokazali su:

  • 1,64× geometrijska sredina smanjenja task completion vremena (statistički značajno, p < 0.001)
  • 1,22× bolju GPU memorijsku iskorištenost — manje wastage-a na unused KV cache stranicama
  • 99,2 % postizanje SLO-a pod multi-tenant opterećenjem (Service Level Objective — ugovorena granica latencije)

Tradeoff je oko 30 % niži peak throughput u odnosu na klasičan batch scheduling. To je očekivano: sustav žrtvuje sirovu propusnost za bolje task completion vrijeme i memory utilization. Za agentne workloade gdje korisnik čeka odgovor cijelog workflowa, smanjenje task completion vremena je korisnija metrika od peak throughputa.

Što ovo znači za operatere agentnih sustava?

Komercijalna implikacija je značajna: ako AWS, Azure ili Google Cloud usvoje workflow-atomic scheduling u svojim GPU pool-ovima, infrastrukturni trošak agentnih sustava može pasti za sličan red veličine kao 1,64× speedup. Za enterprise koji već trošu desetke tisuća dolara mjesečno na agent inference, to je dovoljno značajno da utječe na build-vs-buy odluke.

Rad je dostupan na ArXiv pod ID-om 2605.00528.

Česta pitanja

Što znači 'workflow-atomic' u kontekstu SAGA-e?
Umjesto da scheduler gleda svaki LLM poziv neovisno (i pritom odbacuje gigabajte intermediate state-a između poziva), SAGA tretira cijeli agent workflow kao jednu nedjeljivu jedinicu. To omogućuje KV cache predviđanje, session-affinity batching i bolju iskorištenost GPU memorije.
Koji su ključni tehnički rezultati?
1,64× geometrijska sredina smanjenja task completion vremena (p < 0.001), 1,31× Bélády optimalnog za KV cache, 1,22× bolja GPU memorijska iskorištenost, 99,2 % SLO postizanje. Tradeoff je oko 30 % niži peak throughput u odnosu na batch scheduling.
Gdje će rad biti predstavljen?
Na HPDC 2026 — 35. International Symposium on High-Performance Parallel and Distributed Computing, 13.-16. srpnja 2026. u Clevelandu, Ohio. Rad je dostupan na ArXiv pod ID-om 2605.00528.