OpenThoughts-Agent: AIエージェント向けデータレシピ

OpenThoughts-Agentは、エージェント型言語モデル向けのオープンデータキュレーションパイプラインです。100件以上のアブレーション実験を経て、10万件のサンプルを構築し、Qwen3-32Bをファインチューニング。7つのエージェントベンチマークで44.8%を達成し、既存のオープンソースモデルをすべて上回りました。

エージェントモデルの「データレシピ」とは何か？

エージェントモデル — 複数ステップのタスクを自律的に計画・実行する言語モデル — は、従来のチャットや instruction-tuning セットとは異なるタイプのデータを必要とします。UC Berkeley、NYU、および提携機関の研究者たちは、まさにそのデータキュレーションプロセスを体系化したオープンパイプライン OpenThoughts-Agent を発表しました。

100件の実験から得た明確なレシピ

チームは100件以上のアブレーション実験（他のパラメータを固定しながら1つのパラメータを変える系統的比較）を実施し、サンプルの選択とフィルタリングにおいてどの決定がモデルのエージェント能力に最も影響するかを特定しました。その結果として10万件のキュレーションサンプルセットが生まれ、これを使用してQwen3-32Bをファインチューニングしました。

結果: オープンソース競合比+3.9ポイント

ファインチューニングされたモデルは、7つのエージェントベンチマークで平均44.8%の精度を達成しました。これはオープンモデルのこれまでのリーダーであるNemotron-Terminal-32B（40.9%）より3.9ポイント高く、差が劇的になることは稀なこの分野において測定可能な進歩を示しています。

すべてオープン

パイプライン、データセット、モデルは openthoughts.ai で公開されており、独自のデータ処理プロセスにアクセスできない研究者でも、この研究を再現・発展させることができます。論文は2026年6月23日に提出されました。

よくある質問

OpenThoughts-Agentとは何ですか？何のために使われますか？

OpenThoughts-Agentは、複数ステップのタスクを自律的に実行するLLMを訓練するためのオープンなツールとデータのセットです。パイプラインには、エージェント能力に特化したサンプルの選択とフィルタリング手法が含まれています。

既存のオープンソースモデルと比べてどれほど優れていますか？

ファインチューニングされたQwen3-32Bは、7つのエージェントベンチマークで平均44.8%の精度を達成しており、これはこれまで最高のオープンモデルであるNemotron-Terminal-32Bの40.9%より3.9ポイント高い結果です。

arXiv:2606.24855: OpenThoughts-Agent — エージェントモデル訓練のためのオープンデータレシピ

エージェントモデルの「データレシピ」とは何か？

100件の実験から得た明確なレシピ

結果: オープンソース競合比+3.9ポイント

すべてオープン

よくある質問

出典

関連ニュース