OCP studija: 5 ms clock skew lomi AI inference observability

Tim Ankur Sharme, Deepa Shaha, Davida Larivierea i Heshama ElBakouryja iz Open Compute Project Unified Intelligent Infrastructure workstream-a objavio je 23. travnja 2026. eksperimentalnu studiju o time, causality i observability kvarovima u distribuiranim AI inference sustavima. Već 5 ms clock skew između čvorova lomi causality observability, dok output ostaje korektan — ozbiljan problem za debug velikih LLM serving deploymenta.

Tim sastavljen od Ankur Sharme, Deep Shaha, David Larivierea i Hesham ElBakouryja objavio je 23. travnja 2026. paper “Time, Causality, and Observability Failures in Distributed AI Inference Systems” (arXiv:2604.21361). Rad nastaje unutar Open Compute Project (OCP) Unified Intelligent Infrastructure workstream-a — što daje težinu nalazima jer OCP postavlja standarde koje koriste praktički svi hyperscaleri (Meta, Microsoft, Google, AWS).

Što je distribuirani AI inference?

Suvremeno serviranje velikih LLM upita rijetko se odvija na jednom serveru. Distribuirani inference dijeli posao kroz više čvorova: tokenizer, KV cache, transformer attention slojeve (često tensor parallel preko više GPU-ova), embedding pohranu, postprocessing i orchestrator. Svaki taj čvor ima svoj lokalni sat, a koordinacija između njih u potpunosti ovisi o timestamp baziranoj observability infrastrukturi — distributed tracing alatima poput OpenTelemetry, Jaeger, ili Zipkin.

Što je rad pokazao?

Autori provode kontrolirane eksperimente na multi-node AI inference pipelineu i namjerno ubacuju clock skew (raskorak satova) na jednom stupnju. Ključni nalazi:

Do 3 ms skew: nema observability violation
5 ms skew: “clear causality violations emerge”
Funkcionalni output: ostaje “largely unaffected” — sustav daje točne rezultate
Throughput: također neoštećen

Drugim riječima, sustav funkcionalno radi, ali observability postaje causally incorrect — tragovi pokazuju nemoguće sekvence (npr. odgovor “ranije” od upita), što čini debugging i performance analizu neizvjesnim.

Tri kategorije kvarova

Iz nalaza se izdvaja taksonomija pograničnih kvarova:

Temporal ordering violations — događaji se u tragu pojavljuju u krivom vremenskom redoslijedu
Causality violations — uzročno-posljedične relacije postaju nemoguće za rekonstrukciju iz logova
Observability degradation independent of system performance — najopasnija kategorija jer ne postoji upozorenje da nešto nije u redu (output je dobar, throughput je dobar — samo logovi lažu)

Autori dodatno primjećuju da je ponašanje ne-statičko: u dužim runovima negativne span stope se mogu stabilizirati ili smanjivati zbog clock drifta između čvorova. Eksperimenti su provedeni na Kafka i ZeroMQ transportima s konzistentnim rezultatima; Aeron je u istraživanju ali nije uključen u potvrđenu validaciju.

Što teamovi moraju napraviti?

Glavna preporuka rada: “timing must be treated as a first-class concern in distributed AI systems”. Praktične implikacije:

PTP (Precision Time Protocol) umjesto klasičnog NTP-a — sub-millisecond preciznost preko mreže
Observability tooling koji aktivno detektira clock drift i upozorava prije nego što tragovi postanu corrupt
Testiranje sa simuliranim skewom kao dijelom CI/CD-a za inference servere
Single-node fallback strategije za kritične low-latency staze gdje je timing ključan

Za teamove koji skaliraju LLM serving prema desecima ili stotinama čvorova — bilo da su hyperscaleri ili mid-size shops — rad je obavezno štivo prije sljedećeg arhitekturnog koraka.

Česta pitanja

Što je distribuirani AI inference?

Serviranje LLM upita kroz više fizičkih čvorova — npr. jedan upit prolazi kroz tokenizer node, embedding node, transformer node i postprocessing node. Svaki čvor ima svoj sat, a koordinacija ovisi o vremenskim oznakama u logovima.

Zašto je 5 ms clock skew problem?

Pri tom skewu causality violations se pojavljuju u observability tragovima — npr. trace pokazuje da je B 'završio prije' nego A iako je A trigerirao B. Sustav i dalje radi ispravno funkcionalno, ali debugging i performance analiza postaju nepouzdani.

Što ovo znači za teamove koji skaliraju LLM serving?

Vrijeme se mora tretirati kao first-class concern u dizajnu distribuiranih AI sustava. To znači NTP/PTP precizna sinkronizacija, observability tooling koje detektira clock drift i testovi koji uključuju timing kao varijablu.

arXiv:2604.21361: Open Compute Project mapira time/causality kvarove u distribuiranim AI inference sustavima — 5 ms clock skew lomi observability

Što je distribuirani AI inference?

Što je rad pokazao?

Tri kategorije kvarova

Što teamovi moraju napraviti?

Česta pitanja

Izvori

Povezane vijesti