🟢 📦 开源 发布于: · 1 分钟阅读 ·

arXiv:2606.24855: OpenThoughts-Agent — 智能体模型训练的开放数据方案

arXiv:2606.24855 ↗

编辑插图:开放实验室中机器人智能体在流水线中对数据卡片进行分类

OpenThoughts-Agent是用于智能体语言模型的开放数据整理流水线。经过100+消融实验,团队构建了10万条样本并微调Qwen3-32B,在7个智能体基准上达到44.8%,超越所有现有开源模型。

🤖

本文由人工智能基于一手来源生成。

什么是智能体模型的「数据方案」?

智能体模型——自主规划并执行多步骤任务的语言模型——需要与传统聊天或指令微调数据集截然不同的数据类型。来自UC Berkeley、NYU等机构的研究人员发布了OpenThoughts-Agent,这是一个系统化智能体数据整理过程的开放流水线。

百次实验,一份更清晰的方案

团队开展了100余次受控消融实验——系统性比较,每次仅改变一个参数而保持其余不变——以确定哪些样本选择和过滤决策对模型的智能体能力影响最大。最终形成了10万条精选样本,用于微调Qwen3-32B。

结果:比开源竞品高出3.9个百分点

微调后的模型在7个智能体基准上达到44.8%的平均准确率,比此前开源领先者Nemotron-Terminal-32B(40.9%)高出3.9个百分点——在差距向来不大的领域,这是可量化的实质性进步。

全面开放

流水线、数据集和模型均在openthoughts.ai上公开发布,使没有自有数据处理能力的研究人员也可复现和在此基础上继续研究。论文于2026年6月23日提交。

常见问题

OpenThoughts-Agent是什么,有什么用途?
OpenThoughts-Agent是一套用于训练能自主执行多步骤任务的LLM的开放工具集和数据集,流水线包含专为智能体能力设计的样本筛选和过滤方法。
与之前的开源模型相比,性能提升了多少?
微调后的Qwen3-32B在7个智能体基准上平均准确率达44.8%,比此前最佳开源模型Nemotron-Terminal-32B(40.9%)高出3.9个百分点。