arXiv:2606.27009: 语义早停将代理循环成本降低38%
《迭代LLM代理循环的语义早停》提出了一种方法:一旦连续草稿的嵌入向量停止发生语义变化,即停止代理迭代循环——无需固定步数——从而在质量相同的情况下将令牌消耗减少38%。
本文由人工智能基于一手来源生成。
固定迭代次数浪费令牌
迭代LLM代理循环的标准方法——如ReAct或思维链系统中的方法——依赖固定的最大步数(max_iterations)。问题在于结构性缺陷:简单输入在答案实际上已经足够好之后继续迭代,而困难输入则被过早终止。研究人员Sahil Shrivastava在论文《迭代LLM代理循环的语义早停》(arXiv:2606.27009,2026年6月25日发布)中提出了基于语义收敛的替代方案。
工作原理:嵌入向量与余弦距离
该方法追踪代理在每次迭代中生成的每个草稿的嵌入向量——文本语义的多维向量表示。两个连续嵌入向量之间的余弦距离衡量它们的语义含义差异有多大:接近0表示含义几乎相同,接近1则表示大幅变化。当距离在整个耐心窗口(一系列连续步骤)内保持低于设定阈值时,系统判断循环已收敛并停止。
HotpotQA上的结果:令牌减少38%,质量持平
该方法在HotpotQA数据集上得到验证——这是一个需要整合来自多个文档信息的多跳推理标准基准。无裁判评分的语义早停将操作令牌相对固定最大迭代次数减少了38%。信息评分差异仅为Δ-IS = -0.004(p = 0.81)——在统计上无意义,仅次于总能选择最优轮次的oracle策略,后者的IS比所有实际策略高出+0.115。
为什么这对生产应用很重要
与oracle策略不同,语义早停无需对所有迭代有全局了解即可确定性地实施。论文还提供了机器验证的终止证明,使其在理论上适合生产应用。实现已开源并在GitHub上可用,可直接集成到现有代理框架中。
常见问题
- 语义早停如何决定何时停止?
- 它测量连续草稿的嵌入向量(文本语义的向量表示)之间的余弦距离。当距离在整个耐心窗口内保持低于阈值时,系统判断循环不再产生语义进展并终止。
- 38%的令牌节省意味着结果更差吗?
- 不会——在HotpotQA集合上,信息评分差异仅为-0.004(p=0.81),在统计上不显著。质量与固定最大迭代次数的结果持平。