Cloud Native Computing Foundation是Linux基金会旗下的非营利组织，管理Kubernetes、Prometheus、Helm等关键云原生项目。

什么是ReAct模式？

ReAct（推理+行动）是智能体AI架构模式，LLM交替进行推理和调用工具，迭代地调查问题，而不是给出一次性答案。

HolmesGPT与CNCF工具以0.04美元自动诊断Kubernetes警报

STCLab的双人SRE团队管理着服务200个国家流量的多个Amazon EKS集群，他们发布了HolmesGPT与CNCF工具集成用于自动诊断Kubernetes警报的详细生产集成报告。

架构和工作流程

系统的核心是HolmesGPT的ReAct模式，它使语言模型能够根据警报的上下文独立选择调查工具。Prometheus警报通过Robusta OSS传递，在发送到Slack之前用元数据丰富。Kubernetes是容器编排的开源平台，Prometheus是标准的指标和警报系统，CNCF是Linux基金会旗下的Cloud Native Computing Foundation。对于每个警报，HolmesGPT使用Inspector Gadget和KubeAI等工具启动调查，并将结果返回到触发警报的同一Slack线程中。一个200行的自定义Python脚本连接Slack线程、消除重复项，并将事件路由到正确的runbook。

证明成本合理的数字

单次调查的费用约为0.04美元，每月整个系统的费用约为12美元。去重将每天40个原始警报减少到约12个独特调查。工程师在不到两分钟内完成分析，而以前需要15到20分钟。大约40%的调查无需人工干预即可自主解决。这个性价比与SRE时间成本相比使投资几乎可以忽略不计。

经验：runbook比模型更重要

作者特别强调，结构化runbook的质量对调查成功的影响比LLM的选择更大。在相同警报上使用相同模型的对照测试，当runbook存在时给出4.6分（满分5分），没有runbook时仅3.6分。团队维护七个特定于命名空间的runbook，每个都有列出可用工具的元数据。他们使用混合部署，自托管HolmesGPT用于暂存环境，托管API用于生产。整个技术栈完全依赖CNCF项目：HolmesGPT、Kubernetes、Prometheus、Robusta OSS、Inspector Gadget和KubeAI。

HolmesGPT与CNCF工具以0.04美元自动诊断Kubernetes警报

HolmesGPT与CNCF工具以0.04美元自动诊断Kubernetes警报

架构和工作流程

证明成本合理的数字

经验：runbook比模型更重要

来源

相关新闻