CNCFとは何ですか？

Cloud Native Computing Foundationは、Kubernetes・Prometheus・HelmなどのクラウドネイティブプロジェクトをカバーするLinux Foundationの非営利組織です。

ReActパターンとは何ですか？

ReAct（推論+行動）はエージェントAIアーキテクチャのパターンで、LLMが一度限りの回答ではなく、問題を反復的に調査しながら推論とツール呼び出しを交互に行います。

HolmesGPTとCNCFツールが1件0.04ドルでKubernetesアラートを自動診断

200カ国へのトラフィックを提供する複数のAmazon EKSクラスターを管理するSTCLabの2人制SREチームは、KubernetesアラートのためのHolmesGPTとCNCFツールの本番統合の詳細なレポートを発表しました。

アーキテクチャとワークフロー

システムの核心はHolmesGPTのReActパターンで、言語モデルがアラートのコンテキストに応じて調査ツールを独立して選択することを可能にします。Prometheusアラートはロブスタ OSSを通じて渡され、Slackに送信される前にメタデータで強化されます。Kubernetesはコンテナオーケストレーションのためのオープンソースプラットフォームであり、Prometheusはメトリクスとアラートの標準システム、CNCFはLinux FoundationのCloud Native Computing Foundationです。1つのアラートごとに、HolmesGPTはInspector GadgetやKubeAIなどのツールを使用して調査を開始し、結果をアラートが発生したのと同じSlackスレッドに返します。200行のカスタムPythonスクリプトがSlackスレッドを接続し、重複を削除し、イベントを適切なrunbookにルーティングします。

コストを正当化する数字

1回の調査のコストは約0.04米ドルで、システム全体の月額コストは約12ドルです。重複排除により、1日40件の生アラートが約12件の固有の調査に減少します。エンジニアは以前の15〜20分に対して、2分未満で分析を完了します。約40%の調査が人間の介入なしに自律的に解決されます。このコストパフォーマンスの比率はSRE時間のコストと比較すると投資をほとんど取るに足りないものにします。

教訓：runbookがモデルより重要

著者らは特に、構造化されたrunbookの質が調査の成功においてLLMの選択よりも大きな影響を持つことを強調しています。同じアラートで同じモデルを使用した対照テストでは、runbookが存在する場合5点満点中4.6点、同じアラートでrunbookがない場合は3.6点のみの評価でした。チームは7つのネームスペース固有のrunbookを維持しており、それぞれが利用可能なツールをリストするメタデータを持っています。ステージング用の自己ホストHolmesGPTと本番用のマネージドAPIのハイブリッドデプロイを使用しています。スタック全体がCNCFプロジェクトのみに依存しています：HolmesGPT、Kubernetes、Prometheus、Robusta OSS、Inspector Gadget、KubeAI。

HolmesGPTとCNCFツールが1件0.04ドルでKubernetesアラートを自動診断

HolmesGPTとCNCFツールが1件0.04ドルでKubernetesアラートを自動診断

アーキテクチャとワークフロー

コストを正当化する数字

教訓：runbookがモデルより重要

出典

関連ニュース