Cloud Native Computing Foundation je neprofitna organizacija pri Linux Foundationu koja upravlja ključnim cloud-native projektima poput Kubernetesa, Prometheusa i Helma.

Što je ReAct obrazac?

ReAct (Reasoning + Acting) je obrazac agentske AI arhitekture gdje LLM naizmjence razmišlja i poziva alate, iterativno istražujući problem umjesto davanja jednokratnog odgovora.

HolmesGPT i CNCF alati auto-dijagnosticiraju Kubernetes alerte za 0,04 dolara

STCLab, čiji dvočlani SRE tim upravlja višebrojnim Amazon EKS klasterima koji opslužuju promet u 200 zemalja, objavio je detaljan prikaz svoje produkcijske integracije HolmesGPT-a s CNCF alatima za automatsku dijagnozu Kubernetes alertova.

Arhitektura i tijek rada

Jezgra sustava je HolmesGPT-ov ReAct obrazac, koji omogućuje jezičnom modelu da samostalno bira istražne alate ovisno o kontekstu alerta. Prometheus alerti prolaze kroz Robusta OSS koji ih obogaćuje metapodacima prije nego ih šalje u Slack. Kubernetes je open source platforma za orkestraciju kontejnera, Prometheus je standardni sustav za metrike i alertiranje, a CNCF je Cloud Native Computing Foundation pri Linux Foundationu. Po jednom alertu HolmesGPT pokreće istragu koristeći alate poput Inspektor Gadgeta i KubeAI-a, te rezultate vraća u isti Slack thread gdje je alert pokrenut. Prilagođena Python skripta od 200 linija povezuje Slack thread-ove, uklanja duplikate i usmjerava događaje na prave runbooks.

Brojke koje opravdavaju trošak

Cijena jedne istrage iznosi približno 0,04 američka dolara, što mjesečno izlazi na oko 12 dolara za cijeli sustav. Dedupliciranje svodi dnevnih 40 sirovih alertova na oko 12 jedinstvenih istraga. Inženjeri analizu dovrše u manje od dvije minute, umjesto ranijih 15 do 20 minuta. Otprilike 40% istraga riješi se autonomno, bez ljudske intervencije. Ovaj omjer cijene i učinka čini investiciju trivijalnom u usporedbi s troškom SRE vremena.

Lekcija: runbooks važniji od modela

Autori posebno naglašavaju da kvaliteta strukturiranih runbookova odlučuje o uspjehu istrage više nego izbor LLM-a. Kontrolirani test s istim modelom dao je ocjenu 4,6 od 5 kad su runbooks postojali, a samo 3,6 bez njih na istim alertima. Tim održava sedam runbookova specifičnih za namespaceove, svaki s metapodacima koji navode dostupne alate. Koriste hibridni deployment, samostalno hostirani HolmesGPT za staging, a managed API za produkciju. Cijeli stack oslonjen je isključivo na CNCF projekte: HolmesGPT, Kubernetes, Prometheus, Robusta OSS, Inspektor Gadget i KubeAI.

HolmesGPT i CNCF alati auto-dijagnosticiraju Kubernetes alerte za 0,04 dolara

HolmesGPT i CNCF alati auto-dijagnosticiraju Kubernetes alerte za 0,04 dolara

Arhitektura i tijek rada

Brojke koje opravdavaju trošak

Lekcija: runbooks važniji od modela

Izvori

Povezane vijesti