CNCF Kepler prerađen od temelja: precizno mjerenje energije Kubernetes Podova bez privilegija kernela
CNCF sandbox projekt Kepler potpuno je prepisan: nova arhitektura zamjenjuje eBPF pristup čitanjem standardnih /proc i /sys puteva, eliminira višekilovatne skokove mjerenja i svodi jaz atribucije snage procesa na razinu milivata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Kepler (Kubernetes-based Efficient Power Level Exporter), CNCF sandbox projekt koji mjeri potrošnju energije u Kubernetes klasterima od 2023. godine, dobio je potpuno novu arhitekturu. Tim je objavio detaljno tehničko obrazloženje rewritea, rezultate eksperimenata i poziv zajednici za suradnju — osobito relevantno za organizacije koje vode AI i ML workloadove čija energetska potrošnja postaje sve važnija metrika.
Zašto je Kubernetes slijep za energetsku potrošnju?
Kubernetes nativno ne pruža nikakav mehanizam za praćenje koliko energije troši pojedini Pod ili workload. Administratori klastera mogu vidjeti CPU i memorijsku potrošnju, ali ne i vatate — što postaje problem kada organizacije žele pratiti ugljični otisak, optimizirati energetske troškove ili ispuniti ESG izvještajne zahtjeve. Kepler popunjava tu prazninu: čita hardverske mjerače snage, atribuira potrošnju pojedinim Linux procesima i Podovima, te rezultate izvozi kao Prometheus metrike.
Stara arhitektura i njezini problemi
Prvotni Kepler oslanjao se na eBPF (extended Berkeley Packet Filter) za hvatanje signala iskorištenosti. Ovaj pristup imao je nekoliko ozbiljnih ograničenja u produkcijskim okruženjima:
Zahtijevao je CAP_BPF i CAP_SYSADMIN privilegije — što mnogi sigurnosni timovi ne dopuštaju za standardne monitoring alate. Produkcijski Kubernetes klasteri često imaju stroge politike privilegija kontejnera, pa je Kepler bio blokiran već u fazi deployamenta.
eBPF pristup propuštao je kratkotrajne procese koji su se završili prije nego što ih je kernel probe stigao zabilježiti. U AI/ML workloadovima koji intenzivno koriste kratke batch zadatke, ova nepreciznost mogla se akumulirati.
Najvidljiviji simptom bila je pojava višekilovatnih skokova u mjerenjima — artefakti implementacije koji nisu odražavali stvarnu fizičku potrošnju, ali su kontaminirali metrike i dashboarde.
Nova arhitektura bez privilegija kernela
Nova arhitektura i skok preciznosti
Novi Kepler potpuno je napustio eBPF. Umjesto toga, čita standardne /proc i /sys puteve koje Linux kernel izlaže za sve procese — bez potrebe za privilegijama kernela. Pristup je read-only: Kepler ne piše u kernel ni ne injektira kod.
Ključna inovacija je dinamičko otkrivanje strukture mjerača snage u runtimeu. Stara arhitektura je pretpostavljala fiksnu hardversku topologiju, što je uzrokovalo greške na serverima s različitim konfiguracijama DRAM, socket i package razina. Nova verzija čita strukturu iz /sys pri startu i prilagođava se bez ručne konfiguracije.
Deployment je pojednostavljen na jedan Helm chart, što je značajno smanjilo krivulju učenja i broj konfigurabilnih parametara.
Eksperimentalni rezultati
Tim je proveo dva ključna eksperimenta za validaciju nove arhitekture:
Eksperiment 1 uspoređivao je novi kepler_node_cpu_watts s IPMI ground truth mjerenjima (fizički senzori na serverskom hardveru). Rezultat: nova metrika prati IPMI obrazac bez višekilovatnih skokova koji su karakterizirali staru implementaciju.
Eksperiment 2 mjerio je jaz atribucije snage na razini procesa — razliku između sume atribuirane snage svih procesa i ukupno izmjerene snage čvora. Jaz je sveden na razinu milivata (a ne vatata ili kilowatata kao ranije), što potvrđuje da nova arhitektura konzistentno raspoređuje ukupnu potrošnju.
Pokrivenost testovima dosegla je 90%, što je visoka razina za infrastrukturni alat ove vrste.
Poziv zajednici
Tim Keplera navodi četiri područja gdje traži doprinose:
GPU monitoring za AI/ML workloadove ostaje neriješen problem — trenutna arhitektura pokriva CPU, ali GPU energetska atribucija po Podu je složenija zbog načina na koji NVIDIA i AMD izlažu metrike. Ovo je posebno relevantno za organizacije koje vode LLM inferencing ili trening u Kubernetsu.
Modeliranje snage za VM okruženja zahtijeva ML pristup jer virtualizacijski sloj skriva fizičke mjerače. Tim traži stručnjake koji mogu trenirati modele estimacije snage.
Validacija nasuprot fizičkim mjeračima (IPMI, vanjski wattmetri) i poboljšanje atribucije idle snage dva su dodatna otvorena problema.
Za organizacije koje već mjere energetsku potrošnju AI infrastrukture, nova verzija Keplera predstavlja stabilniju osnovu za integraciju u postojeće Prometheus/Grafana stackove bez kompromisa u sigurnosnim politikama klastera.
Česta pitanja
- Što je Kepler i čemu služi?
- Kepler je CNCF sandbox projekt koji mjeri potrošnju energije u Kubernetes klasterima, atribuira je pojedinim Linux procesima i Podovima te izvozi rezultate kao Prometheus metrike. Primaran je alat za praćenje energetske potrošnje AI i ML workloadova.
- Koji su glavni problemi stare arhitekture i kako ih nova rješava?
- Stara arhitektura koristila je eBPF i zahtijevala CAP_BPF i CAP_SYSADMIN privilegije, propuštala je kratkotrajne procese i uzrokovala višekilovatne skokove mjerenja. Nova čita standardne /proc i /sys puteve, radi read-only, dinamički otkriva strukturu mjerača snage i ne zahtijeva privilegije kernela.
- Koji su eksperimentalni rezultati nove arhitekture?
- Novi kepler_node_cpu_watts prati IPMI ground truth bez kW skokova, a jaz atribucije snage procesa sveden je na razinu milivata. Pokrivenost testovima dosegla je 90%.
Povezane vijesti
ONNX v1.22.0 donosi native attention operatore za LLM-ove i WebAssembly podršku
Miles: PyTorch-nativni open-source okvir za RL post-training LLM-ova frontier razmjera
NVIDIA: Palantir i NVIDIA Nemotron donose suvereni AI američkim agencijama u air-gapped sustavima