代理语义早停：令牌减少38%

《迭代LLM代理循环的语义早停》提出了一种方法：一旦连续草稿的嵌入向量停止发生语义变化，即停止代理迭代循环——无需固定步数——从而在质量相同的情况下将令牌消耗减少38%。

固定迭代次数浪费令牌

迭代LLM代理循环的标准方法——如ReAct或思维链系统中的方法——依赖固定的最大步数（max_iterations）。问题在于结构性缺陷：简单输入在答案实际上已经足够好之后继续迭代，而困难输入则被过早终止。研究人员Sahil Shrivastava在论文《迭代LLM代理循环的语义早停》（arXiv:2606.27009，2026年6月25日发布）中提出了基于语义收敛的替代方案。

工作原理：嵌入向量与余弦距离

该方法追踪代理在每次迭代中生成的每个草稿的嵌入向量——文本语义的多维向量表示。两个连续嵌入向量之间的余弦距离衡量它们的语义含义差异有多大：接近0表示含义几乎相同，接近1则表示大幅变化。当距离在整个耐心窗口（一系列连续步骤）内保持低于设定阈值时，系统判断循环已收敛并停止。

HotpotQA上的结果：令牌减少38%，质量持平

该方法在HotpotQA数据集上得到验证——这是一个需要整合来自多个文档信息的多跳推理标准基准。无裁判评分的语义早停将操作令牌相对固定最大迭代次数减少了38%。信息评分差异仅为Δ-IS = -0.004（p = 0.81）——在统计上无意义，仅次于总能选择最优轮次的oracle策略，后者的IS比所有实际策略高出+0.115。

为什么这对生产应用很重要

与oracle策略不同，语义早停无需对所有迭代有全局了解即可确定性地实施。论文还提供了机器验证的终止证明，使其在理论上适合生产应用。实现已开源并在GitHub上可用，可直接集成到现有代理框架中。

常见问题

语义早停如何决定何时停止？

它测量连续草稿的嵌入向量（文本语义的向量表示）之间的余弦距离。当距离在整个耐心窗口内保持低于阈值时，系统判断循环不再产生语义进展并终止。

38%的令牌节省意味着结果更差吗？

不会——在HotpotQA集合上，信息评分差异仅为-0.004（p=0.81），在统计上不显著。质量与固定最大迭代次数的结果持平。

arXiv:2606.27009: 语义早停将代理循环成本降低38%

固定迭代次数浪费令牌

工作原理：嵌入向量与余弦距离

HotpotQA上的结果：令牌减少38%，质量持平

为什么这对生产应用很重要

常见问题

来源

相关新闻