HolmesGPTとCNCFツールが1件0.04ドルでKubernetesアラートを自動診断
なぜ重要か
STCLab SREチームがReActパターンとCNCFツールを備えたHolmesGPTを使用してKubernetesアラートを自動診断しています。コストは1回の調査で0.04ドル、約40%のアラートが自律的に解決され、最重要な教訓:質の高いrunbookがモデル選択よりも重要です。
HolmesGPTとCNCFツールが1件0.04ドルでKubernetesアラートを自動診断
200カ国へのトラフィックを提供する複数のAmazon EKSクラスターを管理するSTCLabの2人制SREチームは、KubernetesアラートのためのHolmesGPTとCNCFツールの本番統合の詳細なレポートを発表しました。
アーキテクチャとワークフロー
システムの核心はHolmesGPTのReActパターンで、言語モデルがアラートのコンテキストに応じて調査ツールを独立して選択することを可能にします。Prometheusアラートはロブスタ OSSを通じて渡され、Slackに送信される前にメタデータで強化されます。Kubernetesはコンテナオーケストレーションのためのオープンソースプラットフォームであり、Prometheusはメトリクスとアラートの標準システム、CNCFはLinux FoundationのCloud Native Computing Foundationです。1つのアラートごとに、HolmesGPTはInspector GadgetやKubeAIなどのツールを使用して調査を開始し、結果をアラートが発生したのと同じSlackスレッドに返します。200行のカスタムPythonスクリプトがSlackスレッドを接続し、重複を削除し、イベントを適切なrunbookにルーティングします。
コストを正当化する数字
1回の調査のコストは約0.04米ドルで、システム全体の月額コストは約12ドルです。重複排除により、1日40件の生アラートが約12件の固有の調査に減少します。エンジニアは以前の15〜20分に対して、2分未満で分析を完了します。約40%の調査が人間の介入なしに自律的に解決されます。このコストパフォーマンスの比率はSRE時間のコストと比較すると投資をほとんど取るに足りないものにします。
教訓:runbookがモデルより重要
著者らは特に、構造化されたrunbookの質が調査の成功においてLLMの選択よりも大きな影響を持つことを強調しています。同じアラートで同じモデルを使用した対照テストでは、runbookが存在する場合5点満点中4.6点、同じアラートでrunbookがない場合は3.6点のみの評価でした。チームは7つのネームスペース固有のrunbookを維持しており、それぞれが利用可能なツールをリストするメタデータを持っています。ステージング用の自己ホストHolmesGPTと本番用のマネージドAPIのハイブリッドデプロイを使用しています。スタック全体がCNCFプロジェクトのみに依存しています:HolmesGPT、Kubernetes、Prometheus、Robusta OSS、Inspector Gadget、KubeAI。
この記事はAIにより一次情報源から生成されました。