arXiv:2605.10344: TMAS多智能体推理创历史新高

TMAS（测试时多智能体扩展）是一种新的测试时计算扩展方法，将LLM推理组织为具有层次化内存库的专业化智能体之间的协作。作者（加州大学伯克利分校+DeepMind）展示了在相同计算预算下，在MATH-500、AIME 2024、HumanEval和GPQA Diamond上超越所有现有基线方法（Best-of-N、MCTS、AutoTTS）的结果。该方法在单一流水线中结合了推理+检索+验证。

TMAS是什么，为何现在重要？

TMAS（测试时多智能体协同）是一种将测试时计算扩展组织为专业化LLM智能体协作的架构。传统方法（Best-of-N、思维树、MCTS）将单个模型视为整体推理器——TMAS则将问题划分为不同角色：推理者逐步生成，检索者从内存库中获取相关上下文，验证者检查中间步骤。所有三个智能体共享相同的基础LLM，但被赋予不同的系统提示，并专注于各自的子任务。

为何这一点很重要：自从o1（OpenAI）展示了带有「思考时间」的思维链能给出比更大模型更好的结果以来，测试时扩展已成为推理改进的主流范式。AutoTTS（5月11日发布，今天在arXiv:2605.08083）展示了智能体发现可以以$39.9的计算预算找到最优TTS策略。TMAS现在将这种方法推广——不是发现策略，而是将推理明确结构化为多智能体协作。

具体结果是什么，与基线相比如何？

作者在4个基准测试上测试了TMAS。MATH-500： 以GPT-4o-mini为基础的TMAS达到78.4%准确率，基线（Best-of-32）71.2%。AIME 2024： TMAS 56.7% vs 基线43.3%。HumanEval： TMAS 92.1% vs 基线88.9%。GPQA Diamond： TMAS 49.8% vs 基线40.5%。所有结果在相同计算预算下（以FLOPs衡量），这意味着增益完全来自推理的结构性重组，而非额外计算。

GPQA Diamond上的结果特别有趣——该基准测试考察博士级别的科学问题。9.3个百分点的差距是最大的，这表明TMAS在更难的问题上扩展性更好。原因：在简单问题上，单个智能体已能取得好结果——TMAS在问题需要结合检索+推理+验证时才能增加价值。

TMAS在技术层面如何运作？

流水线有三个阶段。第一阶段——分解： 主控制器智能体将问题划分为子任务并分配给推理者智能体。第二阶段——求解循环： 推理者生成步骤，从内存库中搜索相关上下文，从检索者处获取，生成下一步。验证者持续检查中间步骤，标记未通过合理性检查的步骤。第三阶段——综合： 控制器将验证过的步骤合并为最终答案。

层次化内存库是关键创新。标准LLM上下文是扁平的——所有相关信息必须放入单个提示中。TMAS使用具有三个层次的内存库：情节性（当前问题状态）、语义性（从向量数据库检索的领域知识）、程序性（过去问题中的成功策略）。检索者智能体自主决定查询哪个层次。

这对生产应用意味着什么？

对于构建推理智能体（法律AI、医疗诊断助手、科学研究副驾驶）的企业团队而言，TMAS方法很有吸引力，因为它解决了一个已知问题：很难强迫单个大型模型与自身进行创意协作。具有不同角色的多智能体设置自然映射到人类团队合作，这简化了调试和可解释性。

开放问题：延迟。TMAS本质上比单智能体基线消耗更多计算，这增加了延迟。作者报告响应时间比Best-of-N慢3-5倍，这对于批量推理是可接受的，但对于交互式聊天机器人则不然。对于实时智能体（例如预测下一行补全的编码助手），TMAS目前还不实用。

常见问题

什么是测试时计算扩展？

测试时计算扩展是一种通过在推理时（而非训练时）消耗更多计算来提高LLM响应质量的技术。示例：Best-of-N采样（生成N个响应并选择最佳）、思维树（探索可能推理步骤的树）、MCTS（蒙特卡洛树搜索）。TMAS是这种方法的新一代。

TMAS如何改进现有基线？

TMAS引入了三项关键创新：(1) 针对不同角色的专业化智能体（推理者、检索者、验证者），(2) 在推理步骤中记忆中间结果的层次化内存库，(3) 涌现协调——智能体无需显式协议即可学会通信。结果：在相同计算预算下，TMAS实现3-12个百分点的更好结果。

arXiv:2605.10344: TMAS——多智能体测试时扩展在推理基准测试中创下新纪录

TMAS是什么，为何现在重要？

具体结果是什么，与基线相比如何？

TMAS在技术层面如何运作？

这对生产应用意味着什么？

常见问题

来源

相关新闻