🤖 24 AI
🟢 🏥 U praksi srijeda, 22. travnja 2026. · 2 min čitanja

HolmesGPT i CNCF alati auto-dijagnosticiraju Kubernetes alerte za 0,04 dolara

Editorial ilustracija: Kubernetes nadzorna ploca s alarmima i robotskom rukom za automatsku dijagnozu

Zašto je bitno

STCLab SRE tim koristi HolmesGPT s ReAct obrascem i CNCF alatima za automatsku dijagnozu Kubernetes alertova. Trošak je 0,04 dolara po istrazi, oko 40% alertova rješava se autonomno, a najvažnija lekcija: kvalitetni runbooks važniji su od izbora modela.

HolmesGPT i CNCF alati auto-dijagnosticiraju Kubernetes alerte za 0,04 dolara

STCLab, čiji dvočlani SRE tim upravlja višebrojnim Amazon EKS klasterima koji opslužuju promet u 200 zemalja, objavio je detaljan prikaz svoje produkcijske integracije HolmesGPT-a s CNCF alatima za automatsku dijagnozu Kubernetes alertova.

Arhitektura i tijek rada

Jezgra sustava je HolmesGPT-ov ReAct obrazac, koji omogućuje jezičnom modelu da samostalno bira istražne alate ovisno o kontekstu alerta. Prometheus alerti prolaze kroz Robusta OSS koji ih obogaćuje metapodacima prije nego ih šalje u Slack. Kubernetes je open source platforma za orkestraciju kontejnera, Prometheus je standardni sustav za metrike i alertiranje, a CNCF je Cloud Native Computing Foundation pri Linux Foundationu. Po jednom alertu HolmesGPT pokreće istragu koristeći alate poput Inspektor Gadgeta i KubeAI-a, te rezultate vraća u isti Slack thread gdje je alert pokrenut. Prilagođena Python skripta od 200 linija povezuje Slack thread-ove, uklanja duplikate i usmjerava događaje na prave runbooks.

Brojke koje opravdavaju trošak

Cijena jedne istrage iznosi približno 0,04 američka dolara, što mjesečno izlazi na oko 12 dolara za cijeli sustav. Dedupliciranje svodi dnevnih 40 sirovih alertova na oko 12 jedinstvenih istraga. Inženjeri analizu dovrše u manje od dvije minute, umjesto ranijih 15 do 20 minuta. Otprilike 40% istraga riješi se autonomno, bez ljudske intervencije. Ovaj omjer cijene i učinka čini investiciju trivijalnom u usporedbi s troškom SRE vremena.

Lekcija: runbooks važniji od modela

Autori posebno naglašavaju da kvaliteta strukturiranih runbookova odlučuje o uspjehu istrage više nego izbor LLM-a. Kontrolirani test s istim modelom dao je ocjenu 4,6 od 5 kad su runbooks postojali, a samo 3,6 bez njih na istim alertima. Tim održava sedam runbookova specifičnih za namespaceove, svaki s metapodacima koji navode dostupne alate. Koriste hibridni deployment, samostalno hostirani HolmesGPT za staging, a managed API za produkciju. Cijeli stack oslonjen je isključivo na CNCF projekte: HolmesGPT, Kubernetes, Prometheus, Robusta OSS, Inspektor Gadget i KubeAI.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.