arXiv MOSS：エージェントが自身のソースコードを修正

研究者たちはMOSSを提案しました。これは自身のソースコードを書き換えることで改善する自律エージェントのフレームワークです——プロンプトやファインチューニングの重みだけではありません。OpenClawベンチマークで1サイクルのMOSS自己進化がスコアを0.25から0.61に人間の介入なしで引き上げ、エージェントがテキストのみの手法では触れられないルーティング、フック、ディスパッチロジックを修正できることを示しています。

2026年5月21日に公開されたarXivプレプリントMOSSは、プロンプトやファインチューニングの重みだけでなく、自身のソースコードを書き換えることで改善する自律エージェントのフレームワークを提示しています。著者らはMOSSエージェントが生産上の失敗を特定し、コーディングエージェントに修正を委任し、エフェメラルテストサンドボックスで変更を検証し、検証後にのみロールバック機構でデプロイする過程を記録しています。OpenClawベンチマークの1回の自律サイクルでスコアがベースラインの0.25から0.61に跳躍し、著者らはこれを0.28に留まるプロンプトのみの自己改善ベースラインと比較しました。

MOSSはどのように構造的修正と表面的修正を区別するか？

MOSSは2つのカテゴリの失敗を区別します。表面的失敗は誤ったプロンプト、few-shotブロックの不良な例、または過度に硬直したペルソナ定義——これらはプロンプトエンジニアリングで修正できます。構造的失敗はマルチエージェントディスパッチの誤ったルーティングルール、エラー処理の欠けたフック、並列サブエージェントでの状態への安全でないアクセス、ツール統合の論理的誤りです。MOSSはこれらの失敗がプロンプトテキストではなくPython/TypeScriptコードに存在するため、プロンプトのみの手法が構造的失敗を修正できないことを示しています。

具体的に、MOSSがOpenClawタスクでサブエージェントが半有効なJSONを返すことを検出すると、サブエージェントが「より注意深く」なるようプロンプトを書き換えようとするのではありません——dispatch.pyを開き、ロールバックセマンティクスを持つJSON Schemaバリデータを追加し、サンドボックスに変更をデプロイし、失敗していたシナリオが今では通過することを検証します。これはプロンプトのみのベースラインが複製できない構造的修正です。

OpenClawベンチマークとは何ですか、0.61はなぜ重要なのか？

OpenClawは240のマルチステップ生産タスクを含むベンチマークで、エージェントがretrieve-and-summarize、code-modify、deploy-verify操作の組み合わせを解決することを要求します。ベースラインスコア0.25は自己改善ループなしの最先端LLMエージェントにとって期待される値です。1回のMOSSサイクル後の0.61は、240タスクのうち87の追加タスクが今や正常に解決されることを意味します——これは独立した自律改善エージェントセッションとしては限界的に超人的なパフォーマンスです。

著者らはMOSSが「魔法のトリック」を見つけたのではないことを強調します——修正は具体的で監査可能です。典型的な修正は15-40行のPythonコードで、実際の時間は2-8分かかり、人間のレビュアーが読めるgitコミット履歴を残します。

セキュリティリスクは何ですか、MOSSはどう対処するか？

著者らはセキュリティメカニズムを詳しく議論しています。すべての変更は実際のデータにアクセスすることなく生産環境をシミュレートするエフェメラルテストサンドボックスを通過します。デプロイ前にMOSSが解決した新しいシナリオごとに自動的に拡張する回帰テストセットを通過する必要があります。生産メトリクスで新しい回帰が観察された場合、デプロイ後にロールバックが起動します。すべての変更は修正するエラーのクラスを記述する詳細なコミットメッセージとともにgitにコミットされます。

しかし著者らは開放的な問題を認めています：エージェントが自身のコードを修正できるなら、人間のレビュアーはリアルタイムですべての反復を追跡できません。本番でMOSSを使用する際は、累積した変更が安定したブランチに組み込まれる前に人間がレビューする週次の監督ゲートとともに使用することを提案しています。これなしでは、システムは局所的には合理的だが全体的にはエージェントの意味論を望ましくない方法で変える微妙な変更を蓄積する可能性があります。

よくある質問

MOSSは標準的な自己改善エージェントとどう違いますか？

標準的な自己改善エージェントはプロンプトまたはファインチューニングの重みのみを修正します；MOSSはエージェント自身のソースコード——ルーティング、フック、ディスパッチロジック——を修正し、プロンプトのみの手法では実現できない構造的修正を可能にします。

MOSS論文の主な指標の数字は何ですか？

OpenClawベンチマークでMOSSは1サイクルの自己進化でスコアを0.25から0.61に人間の介入なしで引き上げ、等価なプロンプトのみのベースラインは0.28に留まります。

自律的な自己進化エージェントのリスクは何ですか？

主なリスクは監督の喪失です——エージェントが自身のコードを修正できるなら、人間のレビュアーはすべての反復を追跡できません。MOSS著者らはエフェメラルサンドボックステスト、ロールバック機構、本番デプロイ前の高品質な監督ゲートの組み合わせを提案しています。

arXiv:2605.22794：MOSSが自身のソースコードを修正して自己改善するエージェントを実証

MOSSはどのように構造的修正と表面的修正を区別するか？

OpenClawベンチマークとは何ですか、0.61はなぜ重要なのか？

セキュリティリスクは何ですか、MOSSはどう対処するか？

よくある質問

出典

関連ニュース