EnvFactory：環境数1/5でツール使用AIエージェント訓練、性能15%向上

EnvFactoryはツール使用エージェント訓練のための実行可能環境を自動合成する新フレームワークです。Qwen3モデルにおいて、わずか85の検証済み環境でBFCLv3を+15%、MCP-Atlasを+8.6%向上させ、同類手法比で5倍の効率を実現します。

EnvFactoryとは何か、なぜ重要なのか？

EnvFactoryはツール使用エージェント——外部ツールやAPIの使用を学習するAIシステム——の訓練を目的とした実行可能環境の自動合成のための新しいフレームワークです。複数のアジアの大学の研究者たちは、この分野の二つの慢性的な問題を解決しました。スケーラブルな実行環境の不足と、人間の暗黙的な思考パターンを反映した実際の訓練データの不足です。

システムは本物のソースからステートフルツールを自律的に作成・検証し、SFT（教師あり微調整）と**RL（強化学習）**の軌跡を含む、人間の自然なクエリパターンを反映した多段階訓練軌跡を生成します。

成功はどのように測定されるのか？

評価には二つの主要なベンチマークを使用します。BFCLv3（バークレー関数呼び出しリーダーボードv3）——様々なシナリオで関数とツールを正確に呼び出すモデルの能力を測定——とMCP-Atlas——AIエージェントを外部サービスに接続する標準化されたプロトコルであるModel Context Protocolに焦点を当てたテストセット——です。

Qwen3シリーズモデルでEnvFactoryはBFCLv3で+15%、**MCP-Atlasで+8.6%を達成しました。会話ベンチマークτ²-BenchとVitaBenchでは追加で+6%**を記録しています。

5倍の効率——これは本当の進歩なのか？

EnvFactoryを競合と区別するのは精度だけでなく、効率性です。7つのドメインにわたる85の検証済み環境のみを使用しており、これは同類手法の約1/5です。ここから2,575の訓練軌跡が生成されます。トポロジー対応サンプリングと較正された軌跡の精緻化により、データの指数的増加なしに訓練がより堅牢になります。業界にとっての意味は：より優れたエージェント、より低い訓練インフラのコストです。

よくある質問

EnvFactoryとは何ですか、何のために使うのですか？

EnvFactoryは本物のソースからステートフルなツールを自動的に作成・検証し、ツール使用エージェント——外部ツールやAPIの使用を学習するAIシステム——のための多段階訓練軌跡を生成するフレームワークです。

EnvFactoryは従来の手法と比べてどれほど効率的ですか？

7つのドメインにわたる85の検証済み環境のみを使用し——同類手法の約1/5——そこから2,575の訓練軌跡を生成し、BFCLv3ベンチマークで+15%の改善を達成します。

EnvFactoryはどのベンチマークで検証されていますか？

BFCLv3（バークレー関数呼び出しリーダーボード）、Model Context Protocolに特化したMCP-Atlasテストセット、および会話ベンチマークのτ²-BenchとVitaBenchで評価されています。

arXiv:2605.18703：EnvFactory——環境数1/5でツール使用エージェントの性能を15%向上

EnvFactoryとは何か、なぜ重要なのか？

成功はどのように測定されるのか？

5倍の効率——これは本当の進歩なのか？

よくある質問

出典

関連ニュース