HolmesGPT与CNCF工具以0.04美元自动诊断Kubernetes警报
为什么重要
STCLab SRE团队使用带有ReAct模式和CNCF工具的HolmesGPT自动诊断Kubernetes警报。每次调查费用为0.04美元,约40%的警报可自主解决,最重要的经验:质量好的runbook比模型选择更重要。
HolmesGPT与CNCF工具以0.04美元自动诊断Kubernetes警报
STCLab的双人SRE团队管理着服务200个国家流量的多个Amazon EKS集群,他们发布了HolmesGPT与CNCF工具集成用于自动诊断Kubernetes警报的详细生产集成报告。
架构和工作流程
系统的核心是HolmesGPT的ReAct模式,它使语言模型能够根据警报的上下文独立选择调查工具。Prometheus警报通过Robusta OSS传递,在发送到Slack之前用元数据丰富。Kubernetes是容器编排的开源平台,Prometheus是标准的指标和警报系统,CNCF是Linux基金会旗下的Cloud Native Computing Foundation。对于每个警报,HolmesGPT使用Inspector Gadget和KubeAI等工具启动调查,并将结果返回到触发警报的同一Slack线程中。一个200行的自定义Python脚本连接Slack线程、消除重复项,并将事件路由到正确的runbook。
证明成本合理的数字
单次调查的费用约为0.04美元,每月整个系统的费用约为12美元。去重将每天40个原始警报减少到约12个独特调查。工程师在不到两分钟内完成分析,而以前需要15到20分钟。大约40%的调查无需人工干预即可自主解决。这个性价比与SRE时间成本相比使投资几乎可以忽略不计。
经验:runbook比模型更重要
作者特别强调,结构化runbook的质量对调查成功的影响比LLM的选择更大。在相同警报上使用相同模型的对照测试,当runbook存在时给出4.6分(满分5分),没有runbook时仅3.6分。团队维护七个特定于命名空间的runbook,每个都有列出可用工具的元数据。他们使用混合部署,自托管HolmesGPT用于暂存环境,托管API用于生产。整个技术栈完全依赖CNCF项目:HolmesGPT、Kubernetes、Prometheus、Robusta OSS、Inspector Gadget和KubeAI。
本文由人工智能基于一手来源生成。