HolmesGPT와 CNCF 도구, 건당 0.04달러로 Kubernetes 경보 자동 진단
왜 중요한가
STCLab SRE 팀이 ReAct 패턴과 CNCF 도구를 갖춘 HolmesGPT로 Kubernetes 경보를 자동 진단합니다. 비용은 조사 건당 0.04달러, 약 40%의 경보가 자율적으로 해결되며, 가장 중요한 교훈: 양질의 runbook이 모델 선택보다 더 중요합니다.
HolmesGPT와 CNCF 도구, 건당 0.04달러로 Kubernetes 경보 자동 진단
200개국으로의 트래픽을 서비스하는 여러 Amazon EKS 클러스터를 관리하는 STCLab의 2인 SRE 팀이 Kubernetes 경보 자동 진단을 위한 HolmesGPT와 CNCF 도구 통합의 상세한 프로덕션 보고서를 발표했습니다.
아키텍처와 워크플로
시스템의 핵심은 HolmesGPT의 ReAct 패턴으로, 언어 모델이 경보의 맥락에 따라 독립적으로 조사 도구를 선택할 수 있게 합니다. Prometheus 경보는 Robusta OSS를 통해 전달되어 Slack으로 보내지기 전에 메타데이터로 강화됩니다. Kubernetes는 컨테이너 오케스트레이션을 위한 오픈소스 플랫폼이며, Prometheus는 메트릭과 경보의 표준 시스템, CNCF는 Linux Foundation의 Cloud Native Computing Foundation입니다. 경보마다 HolmesGPT는 Inspector Gadget과 KubeAI 같은 도구를 사용하여 조사를 시작하고, 결과를 경보가 발생한 것과 같은 Slack 스레드에 반환합니다. 200줄의 커스텀 Python 스크립트가 Slack 스레드를 연결하고, 중복을 제거하며, 이벤트를 적절한 runbook으로 라우팅합니다.
비용을 정당화하는 수치
단일 조사 비용은 약 0.04 미국 달러이며, 전체 시스템의 월 비용은 약 12달러입니다. 중복 제거는 하루 40개의 원시 경보를 약 12개의 고유 조사로 줄입니다. 엔지니어는 이전의 15~20분에 비해 2분 미만으로 분석을 완료합니다. 약 40%의 조사가 인간의 개입 없이 자율적으로 해결됩니다. 이 비용 대비 성능 비율은 SRE 시간 비용과 비교할 때 투자를 거의 무시할 수 있는 수준으로 만듭니다.
교훈: runbook이 모델보다 중요하다
저자들은 특히 구조화된 runbook의 품질이 조사 성공에서 LLM 선택보다 더 큰 영향을 미친다고 강조합니다. 동일한 경보에서 동일한 모델로 진행한 대조 테스트는 runbook이 있을 때 5점 만점에 4.6점, 동일한 경보에서 runbook 없이는 3.6점만 나왔습니다. 팀은 각각 사용 가능한 도구를 나열하는 메타데이터를 가진 7개의 네임스페이스별 runbook을 유지합니다. 스테이징을 위한 자체 호스팅 HolmesGPT와 프로덕션을 위한 관리형 API의 하이브리드 배포를 사용합니다. 전체 스택은 CNCF 프로젝트에만 의존합니다: HolmesGPT, Kubernetes, Prometheus, Robusta OSS, Inspector Gadget, KubeAI.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.