arXiv:2605.08083: AutoTTS——以仅39.9美元算力自动发现测试时间扩展策略的智能体框架
AutoTTS是一个自动发现测试时间扩展策略的框架,无需手动设计启发式规则。LLM控制器分析推理轨迹并从五种动作中选择:分支、继续、探测、剪枝或停止。在数学基准上,发现过程仅花费39.9美元和160分钟算力。
本文由人工智能基于一手来源生成。
由Tong Zheng、Haolin Liu、Chengsong Huang等十三位作者组成的研究团队于2026年5月11日发布了AutoTTS框架,该框架能自动发现测试时间扩展策略,取代手工设计的方法。论文发表于arXiv:2605.08083,代码和数据将通过GitHub开源。
AutoTTS是什么,如何工作?
AutoTTS将测试时间扩展表述为「对预收集推理轨迹和探测信号的控制器合成」。LLM控制器在每个步骤分析推理轨迹,并从五种动作中选择:分支(branch)、继续(continue)、探测(probe)、剪枝(prune)或停止(stop)。框架使用beta参数化实现可处理的搜索空间,并通过细粒度执行跟踪反馈诊断特定策略失败的原因。
在数学任务上取得了哪些结果?
在数学推理基准上,发现的策略相对强大的手工基线实现了「改进的整体精度-成本权衡」。关键是所学习的策略可泛化至保留基准和不同模型规模——无需针对每种新配置重复发现过程。
整个发现过程花费多少?
作者报告发现过程仅需39.9美元和160分钟算力。这远低于手工工程设计类似策略的成本,研究团队通常需要数月时间实验best-of-N采样或蒙特卡洛树搜索等启发式方法。
这对未来的AI智能体意味着什么?
AutoTTS将范式从「工程师设计推理策略」转变为「智能体自动发现自己的策略」。对于多步骤智能体系统,这意味着每类任务都可以通过自动化管道获得自己的优化TTS策略。作者宣布将开源代码,以便更广泛的社区复现并基于结果继续研究。
常见问题
- 什么是测试时间扩展(TTS)?
- 测试时间扩展指在推理阶段投入更多算力来提升LLM响应质量的技术——例如生成多条候选轨迹、验证中间步骤或自适应决定何时深化推理。手工设计的启发式方法(如best-of-N、MCTS)是迄今的主流。
- AutoTTS与手工设计的TTS策略有何不同?
- 工程师无需手动决定何时分支或停止推理,AutoTTS将问题表述为对预收集推理轨迹的「控制器合成」。控制器在五种动作(branch、continue、probe、prune、stop)中进行选择,使用beta参数化实现可处理的搜索空间,并通过细粒度执行跟踪反馈诊断策略失败原因。
- 39.9美元的成本对其他应用是否现实?
- 该成本适用于论文中描述的数学基准发现过程。已发现的策略可泛化至保留基准和不同模型规模而无需重新进行昂贵发现,表明39.9美元是每类任务的一次性投资。