HolmesGPT i CNCF alati auto-dijagnosticiraju Kubernetes alerte za 0,04 dolara
Zašto je bitno
STCLab SRE tim koristi HolmesGPT s ReAct obrascem i CNCF alatima za automatsku dijagnozu Kubernetes alertova. Trošak je 0,04 dolara po istrazi, oko 40% alertova rješava se autonomno, a najvažnija lekcija: kvalitetni runbooks važniji su od izbora modela.
HolmesGPT i CNCF alati auto-dijagnosticiraju Kubernetes alerte za 0,04 dolara
STCLab, čiji dvočlani SRE tim upravlja višebrojnim Amazon EKS klasterima koji opslužuju promet u 200 zemalja, objavio je detaljan prikaz svoje produkcijske integracije HolmesGPT-a s CNCF alatima za automatsku dijagnozu Kubernetes alertova.
Arhitektura i tijek rada
Jezgra sustava je HolmesGPT-ov ReAct obrazac, koji omogućuje jezičnom modelu da samostalno bira istražne alate ovisno o kontekstu alerta. Prometheus alerti prolaze kroz Robusta OSS koji ih obogaćuje metapodacima prije nego ih šalje u Slack. Kubernetes je open source platforma za orkestraciju kontejnera, Prometheus je standardni sustav za metrike i alertiranje, a CNCF je Cloud Native Computing Foundation pri Linux Foundationu. Po jednom alertu HolmesGPT pokreće istragu koristeći alate poput Inspektor Gadgeta i KubeAI-a, te rezultate vraća u isti Slack thread gdje je alert pokrenut. Prilagođena Python skripta od 200 linija povezuje Slack thread-ove, uklanja duplikate i usmjerava događaje na prave runbooks.
Brojke koje opravdavaju trošak
Cijena jedne istrage iznosi približno 0,04 američka dolara, što mjesečno izlazi na oko 12 dolara za cijeli sustav. Dedupliciranje svodi dnevnih 40 sirovih alertova na oko 12 jedinstvenih istraga. Inženjeri analizu dovrše u manje od dvije minute, umjesto ranijih 15 do 20 minuta. Otprilike 40% istraga riješi se autonomno, bez ljudske intervencije. Ovaj omjer cijene i učinka čini investiciju trivijalnom u usporedbi s troškom SRE vremena.
Lekcija: runbooks važniji od modela
Autori posebno naglašavaju da kvaliteta strukturiranih runbookova odlučuje o uspjehu istrage više nego izbor LLM-a. Kontrolirani test s istim modelom dao je ocjenu 4,6 od 5 kad su runbooks postojali, a samo 3,6 bez njih na istim alertima. Tim održava sedam runbookova specifičnih za namespaceove, svaki s metapodacima koji navode dostupne alate. Koriste hibridni deployment, samostalno hostirani HolmesGPT za staging, a managed API za produkciju. Cijeli stack oslonjen je isključivo na CNCF projekte: HolmesGPT, Kubernetes, Prometheus, Robusta OSS, Inspektor Gadget i KubeAI.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
AWS: multimodalni biološki foundation modeli ubrzavaju otkrivanje lijekova za 50 posto i dijagnostiku za 90 posto
CNCF: infrastrukturni inženjer migrirao 60+ Kubernetes resursa za 30 minuta uz pomoć AI agenta
GitHub Copilot Chat: nove funkcije za razumijevanje pull requestova i automatizirane recenzije koda