Die Cloud Native Computing Foundation ist eine gemeinnützige Organisation unter der Linux Foundation, die wichtige Cloud-Native-Projekte wie Kubernetes, Prometheus und Helm verwaltet.

Was ist das ReAct-Muster?

ReAct (Reasoning + Acting) ist ein agentisches KI-Architekturmuster, bei dem ein LLM abwechselnd denkt und Tools aufruft und ein Problem iterativ untersucht statt eine einmalige Antwort zu geben.

HolmesGPT und CNCF-Tools diagnostizieren Kubernetes-Alerts automatisch für 0,04 Dollar

STCLab, dessen zweiköpfiges SRE-Team mehrere Amazon EKS-Cluster verwaltet, die Traffic in 200 Ländern bedienen, veröffentlichte eine detaillierte Aufschlüsselung ihrer Produktionsintegration von HolmesGPT mit CNCF-Tools für die automatische Diagnose von Kubernetes-Alerts.

Architektur und Arbeitsablauf

Der Kern des Systems ist HolmesGPTs ReAct-Muster, das es dem Sprachmodell ermöglicht, je nach Alert-Kontext selbständig Untersuchungstools auszuwählen. Prometheus-Alerts durchlaufen Robusta OSS, das sie mit Metadaten anreichert, bevor sie an Slack gesendet werden. Kubernetes ist eine Open-Source-Plattform zur Container-Orchestrierung, Prometheus ist das Standardsystem für Metriken und Alerting, und CNCF ist die Cloud Native Computing Foundation unter der Linux Foundation. Pro Alert startet HolmesGPT eine Untersuchung mit Tools wie Inspector Gadget und KubeAI und gibt die Ergebnisse in denselben Slack-Thread zurück, in dem der Alert ausgelöst wurde. Ein benutzerdefiniertes Python-Skript mit 200 Zeilen verbindet Slack-Threads, entfernt Duplikate und leitet Ereignisse an die richtigen Runbooks weiter.

Zahlen, die den Aufwand rechtfertigen

Die Kosten einer einzelnen Untersuchung betragen ungefähr 0,04 US-Dollar, was monatlich auf etwa 12 Dollar für das gesamte System hinausläuft. Die Deduplizierung reduziert täglich 40 Roh-Alerts auf etwa 12 einzigartige Untersuchungen. Ingenieure schließen die Analyse in weniger als zwei Minuten ab, statt der früheren 15 bis 20 Minuten. Etwa 40% der Untersuchungen werden autonom gelöst, ohne menschliches Eingreifen. Dieses Kosten-Effizienz-Verhältnis macht die Investition im Vergleich zu den Kosten der SRE-Ingenieurzeit trivial.

Lektion: Runbooks wichtiger als Modelle

Die Autoren betonen besonders, dass die Qualität strukturierter Runbooks den Erfolg einer Untersuchung mehr bestimmt als die Wahl des LLMs. Ein kontrollierter Test mit demselben Modell ergab eine Bewertung von 4,6 von 5, wenn Runbooks vorhanden waren, und nur 3,6 ohne sie bei denselben Alerts. Das Team pflegt sieben namespace-spezifische Runbooks, jedes mit Metadaten, die verfügbare Tools auflisten. Sie verwenden ein hybrides Deployment — selbst gehostetes HolmesGPT für Staging und eine verwaltete API für die Produktion. Der gesamte Stack stützt sich ausschließlich auf CNCF-Projekte: HolmesGPT, Kubernetes, Prometheus, Robusta OSS, Inspector Gadget und KubeAI.

HolmesGPT und CNCF-Tools diagnostizieren Kubernetes-Alerts automatisch für 0,04 Dollar

HolmesGPT und CNCF-Tools diagnostizieren Kubernetes-Alerts automatisch für 0,04 Dollar

Architektur und Arbeitsablauf

Zahlen, die den Aufwand rechtfertigen

Lektion: Runbooks wichtiger als Modelle

Quellen

Verwandte Nachrichten