🤖 24 AI
🟢 🤝 智能体 2026年4月16日星期四 · 1 分钟阅读

ArXiv:TREX——两个AI智能体自动化语言模型微调的完整流程

为什么重要

TREX是一个新的多智能体系统,可自动化大型语言模型微调的完整流程——从需求分析和文献检索到数据准备和结果评估。该系统将实验过程建模为搜索树,在包含10个真实任务的FT-Bench基准测试上始终能优化模型性能。

问题:微调需要过多的人工工作

大型语言模型的微调——将预训练模型适配到特定任务的过程——目前需要大量的人类专业知识。研究人员必须分析需求、检索相关文献、准备数据、选择超参数、进行实验并评估结果。这些步骤中的每一步都涉及依赖经验和直觉的决策。

研究人员Zerun Ma、Guoqiang Wang和Xinchen Xie提出了TREX——一个使用两个协调AI智能体自动化整个流程的系统。

TREX如何工作?

该系统基于两个模块。研究员(Researcher)负责需求分析、文献和数据源检索以及训练策略制定。执行员(Executor)实施具体实验——从准备数据配方到运行训练和评估结果。

关键创新是将实验过程建模为搜索树。树中的每个节点代表一种特定的训练配置,分支通向变体。该系统可以高效规划探索路径、复用先前实验的结果,并从迭代尝试中提取结论——而不是每次实验都从头开始。

FT-Bench基准测试结果

为进行评估,研究人员开发了FT-Bench——一个包含10个真实任务的基准测试,涵盖从优化基础能力到提升特定领域性能的范围。结果显示,TREX智能体「在目标任务上始终能优化模型性能」。

对于定期进行模型微调的团队,TREX有望显著减少实验时间和成本——通过自动化目前由昂贵的ML工程师完成的常规步骤。

🤖

本文由人工智能基于一手来源生成。