CNCF: AI智能体检索策略对比Kubernetes Bug修复

CNCF基准测试对比了RAG、混合和纯本地检索三种策略，用于AI智能体修复真实Kubernetes Bug。RAG速度最快（1分16秒），但关键瓶颈既非速度也非成本——而是「范围发现」，即智能体识别多个文件中所有受影响代码的能力。

CNCF测试了什么？

云原生计算基金会于2026年5月8日发布了一项基准测试，其中AI智能体——使用Claude Opus模型，超时时间五分钟——修复了从真实开放拉取请求中提取的九个不同复杂度的Kubernetes Bug。目标不是证明某个模型的优越性，而是比较当今智能体系统中主流的三种数据检索架构。

在相同条件下测试了三种方法：

RAG速度最快，平均1分16秒，而混合和本地方法各需约2分25秒。

研究的关键发现是速度和Token数量并非决定性因素。混合方法平均需要8次模型调用（共264k Token），而RAG和本地方法收敛在187-189k Token左右。调用次数被证明比Token量更重要的成本驱动因素。

CNCF将真正的瓶颈称为**「范围发现」**——智能体识别所有需要修改文件的能力。智能体通常能修复Bug的主要位置，但会遗漏集成点处的相邻改动。在一个案例中，智能体「在本地吞掉错误而不是将其传播给调用者——功能上相似，但架构上是错误的」。

对于投资越来越复杂检索流水线的社区来说，结果令人不安：当Bug描述精确（指定了确切文件和函数）时，各策略之间的差异几乎消失。差异只在描述不清晰的Bug中才会显现。结论是：Issue描述质量主导了检索策略，而无论采用何种上下文输入方式，跨架构的系统性推理对智能体来说仍然欠缺。

常见问题

AI智能体背景下的RAG是什么？

检索增强生成——智能体首先从向量数据库（KAIO/Qdrant）检索相关代码片段，然后将其作为上下文生成解决方案。

「范围发现」是什么意思？

智能体识别修复Bug所需修改的所有文件和代码位置的能力，而不仅仅是主要错误位置。

为什么模型调用次数比Token数量更重要？

混合方法平均需要8次调用（相比187k-264k Token），使其成本最高——每次调用除按Token计费外还有固定成本。