arXiv:2604.21361: Open Compute Project mapira time/causality kvarove u distribuiranim AI inference sustavima — 5 ms clock skew lomi observability
Zašto je bitno
Tim Ankur Sharme, Deepa Shaha, Davida Larivierea i Heshama ElBakouryja iz Open Compute Project Unified Intelligent Infrastructure workstream-a objavio je 23. travnja 2026. eksperimentalnu studiju o time, causality i observability kvarovima u distribuiranim AI inference sustavima. Već 5 ms clock skew između čvorova lomi causality observability, dok output ostaje korektan — ozbiljan problem za debug velikih LLM serving deploymenta.
Tim sastavljen od Ankur Sharme, Deep Shaha, David Larivierea i Hesham ElBakouryja objavio je 23. travnja 2026. paper “Time, Causality, and Observability Failures in Distributed AI Inference Systems” (arXiv:2604.21361). Rad nastaje unutar Open Compute Project (OCP) Unified Intelligent Infrastructure workstream-a — što daje težinu nalazima jer OCP postavlja standarde koje koriste praktički svi hyperscaleri (Meta, Microsoft, Google, AWS).
Što je distribuirani AI inference?
Suvremeno serviranje velikih LLM upita rijetko se odvija na jednom serveru. Distribuirani inference dijeli posao kroz više čvorova: tokenizer, KV cache, transformer attention slojeve (često tensor parallel preko više GPU-ova), embedding pohranu, postprocessing i orchestrator. Svaki taj čvor ima svoj lokalni sat, a koordinacija između njih u potpunosti ovisi o timestamp baziranoj observability infrastrukturi — distributed tracing alatima poput OpenTelemetry, Jaeger, ili Zipkin.
Što je rad pokazao?
Autori provode kontrolirane eksperimente na multi-node AI inference pipelineu i namjerno ubacuju clock skew (raskorak satova) na jednom stupnju. Ključni nalazi:
- Do 3 ms skew: nema observability violation
- 5 ms skew: “clear causality violations emerge”
- Funkcionalni output: ostaje “largely unaffected” — sustav daje točne rezultate
- Throughput: također neoštećen
Drugim riječima, sustav funkcionalno radi, ali observability postaje causally incorrect — tragovi pokazuju nemoguće sekvence (npr. odgovor “ranije” od upita), što čini debugging i performance analizu neizvjesnim.
Tri kategorije kvarova
Iz nalaza se izdvaja taksonomija pograničnih kvarova:
- Temporal ordering violations — događaji se u tragu pojavljuju u krivom vremenskom redoslijedu
- Causality violations — uzročno-posljedične relacije postaju nemoguće za rekonstrukciju iz logova
- Observability degradation independent of system performance — najopasnija kategorija jer ne postoji upozorenje da nešto nije u redu (output je dobar, throughput je dobar — samo logovi lažu)
Autori dodatno primjećuju da je ponašanje ne-statičko: u dužim runovima negativne span stope se mogu stabilizirati ili smanjivati zbog clock drifta između čvorova. Eksperimenti su provedeni na Kafka i ZeroMQ transportima s konzistentnim rezultatima; Aeron je u istraživanju ali nije uključen u potvrđenu validaciju.
Što teamovi moraju napraviti?
Glavna preporuka rada: “timing must be treated as a first-class concern in distributed AI systems”. Praktične implikacije:
- PTP (Precision Time Protocol) umjesto klasičnog NTP-a — sub-millisecond preciznost preko mreže
- Observability tooling koji aktivno detektira clock drift i upozorava prije nego što tragovi postanu corrupt
- Testiranje sa simuliranim skewom kao dijelom CI/CD-a za inference servere
- Single-node fallback strategije za kritične low-latency staze gdje je timing ključan
Za teamove koji skaliraju LLM serving prema desecima ili stotinama čvorova — bilo da su hyperscaleri ili mid-size shops — rad je obavezno štivo prije sljedećeg arhitekturnog koraka.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
GitHub mijenja format App installation tokena: s 40 na ~520 znakova, breakage rizik za CI/CD pipelineove
GitHub Copilot dobio GPT-5.5 GA: dostupan na svim glavnim IDE-ovima uz 7,5× premium multiplier
Anthropic uveo Rate Limits API: administratori sada mogu programatski dohvaćati rate-limit konfiguraciju za organizaciju i workspaceove