Microsoft Research Synthetic Computers:長期生産性AIエージェントトレーニングの基盤として1,000台の合成コンピューターを活用
Microsoft Researchが、本物のフォルダー階層とドキュメントを備えた1,000のリアルな合成コンピューター環境を生成する手法を発表しました。各環境で2つのエージェントが協力します——一方がユーザープロファイルに特化した生産性目標を作成し、もう一方が平均2,000ステップ以上・8時間超のシーケンスでそれを実行します。著者らは、このアプローチが原則として数十億の合成世界にスケールでき、エージェントの自己改善のための基盤基質となると主張しています。
Microsoft Research(Tao Ge、Baolin Peng、Hao Cheng、Jianfeng Gao)の研究者たちが、既存のエージェントベンチマークの範囲を超えた生産性ワークフローをシミュレートするリアルな合成コンピューティング環境を生成する手法を発表しました。この研究の目的はインフラストラクチャ的なもの——手動でキュレーションされたデータセットを超えるスケールで、長期エージェントのトレーニングと評価が可能な基盤を提供することです。
「合成コンピューター」とは正確に何ですか?
各合成コンピューターには、実際の作業環境を模した本物のフォルダー階層とドキュメント・アーティファクトが含まれています——無菌のサンドボックスではなく、文脈的に関連するコンテンツを持つファイルシステムです。2つのエージェントがこの空間で協力します:
- ジェネレーターは環境のユーザープロファイルに特化した生産性目標を作成します——「複数のプロフェッショナルな成果物と約1か月分の人間の作業を必要とする」タスクです。
- エグゼキューターはユーザーの役割を担い、コンピューター内で作業します——ファイルをナビゲートし、新しいアーティファクトを作成し、長期間にわたって一貫してタスクを実行します。
具体的な数値は?
3つの指標値がこの研究のフレームワークを定義します:
- 研究内で1,000台の合成コンピューターを生成
- シミュレーションあたり平均2,000ステップ超
- 1回のシミュレーション完了に8時間超のエージェント作業
これはSWE-Bench、GAIA、AgentBenchなどの従来のエージェントベンチマークとは大きく異なります——これらのベンチマークでは、個々のタスクが数十ステップを超えることはほとんどありません。長期的な次元が重要です——著者らは、人間の介入なしに自律的に何時間も作業できるクラスのエージェントを対象にしようとしています。
どの程度スケールできますか?
この研究の主論点はインフラストラクチャのスケーラビリティです。著者らは、この手法が「原則として十分な計算リソースがあれば何百万、何十億もの合成ユーザーワールドにスケールできる」と主張しています。これにより、エンジニアリングワークフローからマーケティング計画、管理タスクまで——多様な職業とコンテキストがカバーされます。これは、開発者サンドボックスの限られたタスクセットを超えて汎化できるエージェントをトレーニングするための前提条件です。
著者らはこの研究を「エージェントの自己改善のための基礎基質」と位置づけています——シミュレーションされた世界内で独自のトレーニングデータを生成し、自身のミスに基づいて修正できるエージェントです。このアプローチが再現可能であることが証明されれば、次世代の生産性AIシステムの主要コンポーネントの一つとなり得ます:より良いモデルだけでなく、モデルのトレーニングに使用される合成経験の手続き的経済学です。
よくある質問
- この論文における合成コンピューターとは何ですか?
- 本物のフォルダー階層、ドキュメント、アーティファクトを備えたリアルなシミュレーションコンピューティング環境です。AIエージェントが実際のユーザーのように動作できることを目指しています——ファイルシステムをナビゲートし、アーティファクトを作成し、生産性タスクを実行します。
- シミュレーションはどのくらいの時間かかりますか?
- シミュレーションあたり平均2,000ステップ超、エージェントの作業時間8時間超です。これは、数十ステップを目標とするほとんどの従来のエージェントベンチマークよりも大幅に長い時間です。
- スケーリング計画はどうなっていますか?
- 著者らは、十分な計算リソースがあれば、この手法が原則として何百万、何十億もの合成ユーザーワールドにスケールでき、多様な職業とコンテキストをカバーできると主張しています。
この記事はAIにより一次情報源から生成されました。