🟢 🤝 エージェント 公開日: · 2 分で読めます ·

arXiv:2605.18703:EnvFactory——環境数1/5でツール使用エージェントの性能を15%向上

arXiv:2605.18703 ↗

Editorial illustration:

EnvFactoryはツール使用エージェント訓練のための実行可能環境を自動合成する新フレームワークです。Qwen3モデルにおいて、わずか85の検証済み環境でBFCLv3を+15%、MCP-Atlasを+8.6%向上させ、同類手法比で5倍の効率を実現します。

🤖

この記事はAIにより一次情報源から生成されました。

EnvFactoryとは何か、なぜ重要なのか?

EnvFactoryはツール使用エージェント——外部ツールやAPIの使用を学習するAIシステム——の訓練を目的とした実行可能環境の自動合成のための新しいフレームワークです。複数のアジアの大学の研究者たちは、この分野の二つの慢性的な問題を解決しました。スケーラブルな実行環境の不足と、人間の暗黙的な思考パターンを反映した実際の訓練データの不足です。

システムは本物のソースからステートフルツールを自律的に作成・検証し、SFT(教師あり微調整)と**RL(強化学習)**の軌跡を含む、人間の自然なクエリパターンを反映した多段階訓練軌跡を生成します。

成功はどのように測定されるのか?

評価には二つの主要なベンチマークを使用します。BFCLv3(バークレー関数呼び出しリーダーボードv3)——様々なシナリオで関数とツールを正確に呼び出すモデルの能力を測定——とMCP-Atlas——AIエージェントを外部サービスに接続する標準化されたプロトコルであるModel Context Protocolに焦点を当てたテストセット——です。

Qwen3シリーズモデルでEnvFactoryはBFCLv3で+15%、**MCP-Atlasで+8.6%を達成しました。会話ベンチマークτ²-BenchとVitaBenchでは追加で+6%**を記録しています。

5倍の効率——これは本当の進歩なのか?

EnvFactoryを競合と区別するのは精度だけでなく、効率性です。7つのドメインにわたる85の検証済み環境のみを使用しており、これは同類手法の約1/5です。ここから2,575の訓練軌跡が生成されます。トポロジー対応サンプリングと較正された軌跡の精緻化により、データの指数的増加なしに訓練がより堅牢になります。業界にとっての意味は:より優れたエージェント、より低い訓練インフラのコストです。

よくある質問

EnvFactoryとは何ですか、何のために使うのですか?
EnvFactoryは本物のソースからステートフルなツールを自動的に作成・検証し、ツール使用エージェント——外部ツールやAPIの使用を学習するAIシステム——のための多段階訓練軌跡を生成するフレームワークです。
EnvFactoryは従来の手法と比べてどれほど効率的ですか?
7つのドメインにわたる85の検証済み環境のみを使用し——同類手法の約1/5——そこから2,575の訓練軌跡を生成し、BFCLv3ベンチマークで+15%の改善を達成します。
EnvFactoryはどのベンチマークで検証されていますか?
BFCLv3(バークレー関数呼び出しリーダーボード)、Model Context Protocolに特化したMCP-Atlasテストセット、および会話ベンチマークのτ²-BenchとVitaBenchで評価されています。